Preferred Networks(PFN)は2026年4月3日、自律稼働デバイス向けの視覚言語モデル(Vision-Language Model:VLM)「PLaMo-VL」をHugging Faceで公開したと発表した。同社の大規模言語モデル(LLM)「PLaMo」をもとに画像理解能力を統合したマルチモーダル基盤モデルで、ドローン、ロボット、監視カメラ、自動車などのエッジデバイス上での動作を想定している。
Preferred Networks(PFN)の「PLaMoーVL」は、カメラ画像をもとに自律的に稼働するIoTデバイスに向けた視覚言語モデル(Vision-Language Model:VLM)である。同社の大規模言語モデル「PLaMo」をもとに、画像を理解する能力を統合してマルチモーダル型の基盤モデルとした。ドローン、ロボット、監視カメラ、自動車などのエッジデバイス上での動作を想定している。設備点検や物流管理など、安全性や信頼性が求められる産業現場での実用化を目指している。
パラメータサイズに応じて2種類を開発した。8B(80億)パラメータの「PLaMo 2.1-8B-VL」(PLaMo 2.1-8Bベース)と、2B(20億)パラメータの軽量版「PLaMo 2.1-2B-VL」(PLaMo 2.1-2Bベース)である。PFNはこれらのモデルとモデルウェイト(学習済みのパラメータファイル)をHugging Faceで公開するとともに、技術情報ブログを公開した。なお、本開発は経済産業省・NEDOが推進する生成AI基盤モデル開発プロジェクト「GENIAC」第3期(2025年8月~2026年2月)において実施したもので、PFNはGENIACモデル賞を受賞している。
背景として近年、ドローンやロボットなどにAIを搭載し、物理世界の状況を理解して判断・行動するフィジカルAI(Physical AI)の活用が進んでいる。一方、クラウド型のAIはセンサーデータの送信による通信負荷やリアルタイム性の低下、機密情報のセキュリティリスクといった問題がある。これに対してPLaMo-VLは、エッジデバイスの限られた計算資源でも高精度に動作することを目指して開発した。
フィジカルAIの産業応用においては、AIが単に画像を認識するだけでなく、「何が起こっているか」を正しく判断し、その根拠を人に説明できることが不可欠である。PLaMo-VLでは、(1)画像に基づいて状況を言語で理解・判断する「VQA(Visual Question Answering)」と、(2)テキストの指示が指す人物・物体を画像中の位置情報として示す「Visual Grounding」の2つの性能を強化した。これにより「どこで何が起こっているか」を明確に把握できるようにした。
GENIAC第3期でPFNが実施した企業との実証実験では、8BモデルのPLaMo 2.1-8B-VLを使い、工場における作業タスクの分類と、発電プラント設備の異常検出に取り組んだ。作業タスク分類では、作業者の姿勢や周辺環境だけでなく使用している工具にも着目し、Visual Groundingで工具の位置と種類を特定したうえで、VQAによって作業内容を推定した。判別が難しい複雑な作業工程も高精度に理解することが可能になったとしている(図1)。
図1:使用工具を手がかりに、工場内の作業タスク(正解は「エアブロー」)をゼロショットで認識した(出典:Preferred Networks、実証実験データ収集協力:ファナック)拡大画像表示
ドローン画像からの異常検出では、正常時と現在の画像を比較し、位置・画角のずれや照明変化による見かけ上の差分ではなく、異常に結びつく意味のある変化を抽出した。さらに、異常の位置を示すバウンディングボックスと種類を示すラベルを生成し、現場での確認や対応に活用できる形で提示した(図2)。
図2:正常時の参照画像(右)に対して、異常検出対象画像(左)では「タオル」と「工具」を検出した(出典:Preferred Networks、実証実験データ収集協力:KDDI)拡大画像表示
いずれの実験でも、PLaMo 2.1-8B-VLは「Qwen3-VL-235B-A22B-Instruct」などのオープンモデルを上回るベンチマーク評価を得た。PFNは「既知工程に対する作業漏れや手順逸脱の検出、設備点検や監視業務における見落としの低減などでの活用が期待できる」としている。
PFNは今後、産業現場の特定用途を対象とした実証実験を行いながら現場データの追加学習によって性能を高め、実運用環境で得られたフィードバックをモデル開発に反映していく。これにより、さらに実用性の高いモデルを開発し、産業現場でのフィジカルAIの実用化を目指す。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
-
-
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



