「音」を適切に認識すれば、画像解析では難しい、あるいはコストがかかりすぎることを実現できる--そんな「音響認識(Computer Hearing)」の可能性に着目したベンチャー企業が増えている。その中でトップを走る1社が米OtoSense(オトセンス)という、2014年設立で社員数12人の小さな企業だ。一体、音響認識とはどんな可能性を持つのか?
高齢者の見守り、街やビルの警備、高速道路や電車など交通網の運行状況・・・。こういった監視用途に最適な手段と言えば、圧倒的に画像や動画だろう。高解像化・小型化が著しいカメラを使えば、遠隔で様々な場所を監視できる。記録も残せるので、何かあった時の証拠になるのもメリットだ。
これに対し米OtoSenseの創業者CEOであるSebastien Christian氏は、「カメラによる監視には限界もあります」という。その1つが、常に人がウォッチする必要があること。画像認識などの手段で自動化しようとすると、高度なソフトウェアと高性能のコンピュータが必要になる。
ネットワークのコストも、安くなったとはいえ解像度の高い画像を送るにはそれなりの回線が必要で、カメラが多くなれば通信費がかかる。プライバシーの問題も大きい。高齢者の見守りのためとはいえ居室にカメラを設置するのは、実際問題として難しいだろう。細かいことかも知れないが、カメラには死角もある。
そんな画像や動画の問題を補完したり、単独でも様々な用途に使えるのが「音」だとChristian氏は話す。「人の声や衝撃音、ドアの開け閉めの音などを、高精度で分類できます。ビルの監視に音響認識を使えば、多くのことを自動化できます。例えば無人のはずのフロアの音を認識し、警備員が立てた音か、そうでないかを判断。アラートを通知するロジックを簡単に組めるのです」。
一例がオランダのアムステルダム市。交通量の多い交差点など街の要所に設置したマイク付きの監視カメラをマルチ画面で監視し、事故などに備えている。しかしマイクで拾った音声はこれまで捨てていた。複数の音声を監視員が聞いてもノイズにしかならないからだ。
しかしカメラ映像の場合、事故などが起こった際に監視者がその画面を見ていなければ、すぐには認識できない。そこで同市は、OtoSenseを採用し、事故による異常音を検知すると即、監視者にアラートで知らせる仕組みにした。同時に警察にも自動通知する仕組みを構築したことで、事故が起きてから警察や救急車が到着するまでの所要時間を縮めたという。