東芝は2024年10月28日、「ハイブリッド行動認識AI」を開発したと発表した。人物の骨格の動きとカメラ映像から抽出した1枚の画像から、少ない計算量で人物の行動を認識できるようにしている。今後、同社グループの工場や画像解析システムなどで活用し、早期の実用化を目指す。
東芝が開発した「ハイブリッド行動認識AI」は、人物の骨格の動きと、カメラ映像から抽出した1枚の画像から、少ない計算量で人物の行動を認識できるようにしたAIモデルである(図1)。
拡大画像表示
東芝は、製造現場でカメラ映像から作業員の行動を捉える行動認識AIの導入が進んでいるとし、主な方式として、撮影した人物の映像を骨格情報に変換して解析する「骨格認識AI」と、カメラで撮影した動画をそのまま解析する「動画認識AI」の2つを挙げている。
「骨格認識AIは、少ない計算量で行動を認識できる一方、人物の持ち物が何なのか判別できず、認識できる行動の種類に制限がある。一方、動画認識AIは、持ち物も含めて行動を認識できるが、計算量が膨大で、高性能な計算用のサーバーを必要とする」(東芝)
今回同社が開発したハイブリッド行動認識AIは、人物の骨格の動きを参考にしながら、カメラ映像から行動を認識するために適したキーフレームとなる画像を1枚のみ抽出する仕組み。少ない計算量で、骨格情報には含まれない工具や部品などのビジュアル情報をAIに取り組むことで、骨格と画像の両方の情報を利用した行動認識が可能になる。
同社が公開データセットで評価した結果、骨格認識AIだけで認識する手法に比べて、道具を使う行動の認識精度が向上したという。例えば、「スマートフォンやタブレットを使用する」という行動では、ハイブリッド行動認識AIによって、認識精度が51.6%から89.5%に向上したことを確認したという。
ハイブリッド行動認識AIは、動画認識AIよりも低い計算量で、骨格認識AIより詳細に作業内容を解析可能。骨格認識AIのみでは認識できなかった行動が区別できるようになる。動画のフレームをすべて処理する動画認識AIと比較して4.6倍高速に処理できるため、骨格認識AIと同様、リアルタイムでの処理が可能だとしている。
東芝は今後、同社グループの工場やカメラ付きLED照明を用いた画像解析システムなどに活用し、早期の実用化を目指す。