パナソニック コネクト、画像認識世界最高峰の学会CVPR 2025 VidLLMsコンペティションで世界1位を獲得~質問を段階的に解く、動画認識AI「DIVE」を開発~

 パナソニック コネクト株式会社(本社:東京都中央区、代表取締役 執行役員プレジ
デント・CEO:樋口 泰行、以下コネクト)は、画像認識分野における世界最高峰の国
際会議「CVPR 2025」で開催されたコンペティション「Complex Video Reasoning &
Robustness Evaluation」において、世界 1 位の成績を収めました。
 本コンペにおいて、コネクトが開発した動画認識 AI 技術「DIVE(Deep-search
Iterative Video Exploration):ダイブ」は、与えられた動画に関する複雑な質問に対
して正答率 81%を記録し、その性能が高く評価されました。

【開発の背景】
近年、映像データの利活用が多様なビジネス領域で加速する中で、AI が映像内容を理
解し、自然言語の質問に正確に答える技術へのニーズが高まっています。
たとえば、物流現場では作業工程の記録映像を AI が解析し、改善提案を行うといっ
た応用が期待されています。

しかし従来の AI では、動画の「意味」や文脈を深く理解する必要がある「問い」への
対応が難しく、実用化に向けた大きな課題となっていました。
こうした課題の克服に向けて、コネクトは AI の映像理解能力と自然言語による応答
力を総合的に評価する場として、世界最高峰の画像認識国際会議「CVPR 2025」で開
催されたコンペティションに参加しました。

【Complex Video Reasoning & Robustness Evaluation タスクの概要】
 CVPR 2025 で初開催された VidLLMs Workshop では、動画系大規模言語モデル
(Video Large Language Models, VidLLMs)の性能を競うコンペティションが行わ
れました。コネクトは、その中の「Complex Video Reasoning & Robustness
Evaluation(複雑な動画理解)」部門にエントリーしました。

「複雑な動画理解」タスクでは、複雑な文脈を含む第三者視点の動画 214 本と、2,400
件の自由記述形式の質問セットを用いて、動画認識 AI が多様で困難な状況にどう対
応できるかが評価されます。
対象となる動画は、時間的順序の把握、感情や社会的背景の理解、常識に基づく推論
など、11 の複雑なカテゴリに分類されており、現実に近い状況下での理解力が求めら
れます。また、あえて映っていない物体や事象について問いかける設問や、誤解を誘
うような問いが含まれており、AI のハルシネーション(事実誤認)を防ぐ能力も問わ
れるだけでなく、回答は自然言語による自由記述とされており、文脈に応じた表現力
も求められます。

 従来の AI モデルは正答率が約 75%にとどまる一方で、人間は 97%という高い正確性
を示しており、この分野においては依然として AI と人間の間に大きな性能差が存在
しています。
【AI 技術 DIVE(ダイブ)の開発】
 コネクトは、複雑で難易度の高い動画認識タスクにも的確に対応できる、動画認識 AI
技術「DIVE」を開発しました。本技術は、複雑な問いを分解し、段階的かつ文脈を理
解しながら思考を深めていくプロセスを採用しており、近年注目されている大規模言
語モデル(LLM)の長時間思考という最新トレンドを先取りしたアプローチです。
 たとえば、名探偵の事件解決のように、初めから「A さんが犯人か?」という難しい
問いに直接答えるのではなく、「A さんにはアリバイがあるか?」「A さんに動機はあ
るか?」「そのアリバイは本物か?」といった複数の小さな疑問を一つずつ検証して
いくことで、最終的に難問を解決するアプローチです。
 このような“人間のような思考プロセス”を実現するために、DIVE は次の 3 つの主要
技術を軸に構成されています。
 1. 複雑な問いを段階的に深く考える“長時間思考”プロセス
問いを構成要素ごとに分解し、それらを意味のある質問リストへと再構成すること
で、AI が熟考を重ねながら段階的に推論を進める設計を実現。人間のように、複雑な
問いを順序立てて解く思考プロセスを実現します。
 2. 重要物体に基づく、網羅的な動画要約生成技術
マルチモーダル(テキスト、画像、音声、動画など、複数の異なる種類のデータを同
時に処理することが可能)な大規模言語モデルと物体検出モデルを連携させることで、
映像内の重要な物体やシーンの変化を捉え、動画全体を網羅する高精度な要約情報を
生成します。
 3.質問の意図を読み解く文脈理解技術
質問の背後にある目的や視点を推定することで、文脈に即した意味のある回答生成を
可能にし、表面的な言葉の裏側にある意図や文脈を捉えた深い理解を実現します。
これらの技術を統合することで、DIVE は複雑な問いに対して段階的かつ柔軟に思考
を重ね、最終的な解を導き出すことが可能になります。

【今後の展開】
 コネクトでは、今回の成果を基に、本技術のさらなる高度化に取り組んでまいります。
今後は、当社が注力するサプライチェーン領域(製造・物流・流通)を中心に、動画
認識 AI を活用した現場支援ソリューションの実装を推進し、業務の効率化や安全性
の向上に貢献していきます。そして「現場から 社会を動かし 未来へつなぐ」という
パーパスのもと、映像理解技術を通じて現場の課題を見える化し、すべての人々が安
心して暮らせる持続可能な社会の実現を目指してまいります。