富士通研究所は2020年11月16日、超高圧縮した映像からでも高精度に映像の内容を認識できる映像圧縮技術を開発したと発表した。監視・確認作業をディープラーニング(深層学習)を用いた画像認識で自動化するケースに向く。一般的な方式(H.265映像圧縮とAIの組み合わせ)と比較して100倍以上の圧縮率を達成できるとしている。2021年度中の実用化を目指す。
富士通研究所は、ディープラーニング(深層学習)を使った画像認識による映像の監視・確認作業を支援する技術として、通常よりも高い圧縮率で圧縮した映像からでも高精度に映像の内容を認識できる技術を開発した。
開発した技術を、映像に映っている物体を100カテゴリに分類するタスクに適用したところ、非圧縮の認識率から5%劣化する条件において、H.265を用いた画像ベースの方法と比べて100倍の圧縮性能を達成した(図1)。車両(自動車やオートバイ)の分類など特定用途を想定して20カテゴリに分類する場合は300倍の圧縮性能を達成した。
拡大画像表示
一般に、画像認識AI向けの映像圧縮技術は、AI認識モデルを、特徴量を抽出する部分と、分類や物体の検出などを行う部分に分離する。特徴量抽出モデルで得られる深層特徴量データを圧縮して伝送し、受信側で復元処理した後に分類器などで画像を認識する。既存の映像圧縮技術であるH.265よりも高い圧縮性能を持った特徴量圧縮技術が求められている。
富士通研究所は今回、特徴量圧縮技術として、同社の独自技術で高次元データの分布・確率などの本質的な特徴量を獲得する「DeepTwin」を適用した。DeepTwinのオートエンコーダは、データの評価尺度を定めると、評価尺度の値を保ったままデータの情報量が最小となるように次元圧縮できる。これにより、AIの認識に必要な最小限のデータ量にまで映像を圧縮できる(図2)。
拡大画像表示
DeepTwinで圧縮した後の特徴量が持つ情報量を調べると、一部に大きく偏った分布となる(図3)。これは、圧縮後の特徴量では、一部に必要な情報が凝縮されていることを意味している。このため、圧縮後の特徴量のうち、情報量が低く、認識率への影響が小さいデータから段階的に削減するように加工すれば、必要な認識率に応じてデータ量を制御できる。
拡大画像表示