Preferred Networks(PFN)は2021年7月27日、指先の向きや手の重なりまで認識する3D姿勢推定技術を開発したと発表した。ディープラーニング(深層学習)を活用して、身体の動きを高精度に認識する。ソフトバンクが手話と音声のコミュニケーションシステム「SureTalk」に採用し、手話アバター動画の生成に活用している。
Preferred Networks(PFN)は、指先の向きや手の重なりまで認識できる3D姿勢推定技術を開発した。ディープラーニング(深層学習)を活用して、身体の動きを高精度に認識する。ソフトバンクが手話と音声のコミュニケーションシステム「SureTalk」に採用し、手話アバター動画の生成に活用している。
PFNは、3DCGによる人体シミュレーションによって、大量の学習データを作成する。これを、PFNのスーパーコンピュータで学習する。こうして、全身を総合的に認識できる3D姿勢推定モデルを構築した。
専用カメラによる撮影や、身体へのセンサー装着は不要である。指先の向きや両手が重なる場面での誤検出を削減する。スマートフォンなどで撮影した動画でも、身体細部の動きを高精度にトラッキングできるという。
これまでデジタル化が難しかった楽器演奏やスポーツの解析、細かな手作業の技術継承、遠隔診断・リハビリなどへの技術応用が期待できるとしている。アバターアニメーション制作などの自動化を進めることもできる。
なお、3D姿勢推定技術は、ソフトバンクが開発するSureTalkが採用した(図1)。手話動画から、指先の向きや身体(手首・肘・肩・首・鼻・腰)の動きをトラッキングし、手話話者個人を特定しない、コンピュータグラフィックスによる統一規格の手話アバター動画を生成する基礎技術として活用している。
手話では、指の動きや手の重なりが語彙の意味に影響するため、指先まで認識できる高度な3D姿勢推定技術が求められる。同技術により、自動生成された手話アバター動画は、手話話者によるオリジナル動画の再現性を複数の目でチェックし、正しい手話表現になるよう微修正を加えて公開する。
PFNは今後、ソフトバンクと日本語音声から手話アバター動画を自動生成する技術の開発を進め、聴覚障がい者と健聴者との円滑なコミュニケーションの実現を目指す。