
映像情報メディア学会年次大会~AIは「異なる種類の知能」に進化
映像情報メディア学会は、8月27日~29日に東京理科大学 葛飾キャンパスにおいて2025年年次大会を開催した。映像情報メディアに関連する様々な技術やトピックが紹介された他、ホットなテーマでディスカッションなども実施された。今回は企画セッション2「企業におけるAI開発の足跡と展望」模様(=画像=)をレポートする。
まず、NHKの今井亨氏が「放送メディアを支えるAI技術の変遷と可能性」と題して講演した。
生成AIは一見素晴らしく、驚くほどの映像を作れるが、放送メディアでコンテンツとして使うには、慎重な検討が必要だと思っているという。そういったその留意点、放送メディアで事業者が使うときの留意点にも触れながら、AI技術の変遷と可能性について述べた。
NHK技研の前身には総合研究所と基礎研究所があり、1960年代から人間の脳や学習に関する研究を進めていた。放送を豊かにするための視覚・聴覚研究として始まり、現在のディープラーニングへつながる。
NHK基礎研では画像認識・音声認識・音声合成・自然言語処理を研究開始したが、当時は「AI」と呼ぶのを避けていたという。第2次AIブーム(1980〜90年代)が訪れ、エキスパートシステム(知識・ルールベース)が期待されたが、期待外れで再び冬の時代に突入する。その頃NHKでは音声認識でHMM(隠れマルコフモデル)導入、実用化が進む。
第3次AIブーム(2010年代〜)は、GPUの進化でディープニューラルネットワークが普及、特徴量設計不要で生データ(ピクセル、スペクトログラム)から学習可能になった。NHKは白黒映像の自動カラー化(戦争記録や関東大震災映像に活用)、映像要約や文字認識などを実用化した。
第4次AIブーム(2017年〜)には、トランスフォーマーが登場し、大規模言語モデル・生成AIの時代となった。NHKでも映像メタデータ付与、固有名詞認識、人物識別、説明文生成に応用している。
技術的なポイントとしては、まず自己教師あり学習(Self―Supervised Learning)がある。特徴はラベル付きデータが不要なため、大量の音声・テキスト・画像をそのまま利用可能。ただし、その後の目的タスク(要約・質問応答など)には ファインチューニングが必要となる。
ファインチューニングは、教師あり指示学習により、プロンプトに対して正しい応答を出すよう学習させる。人間のフィードバックは出力に対して「良い・悪い」を点数化sするRLHF(人間フィードバックによる強化学習)を採用する。ChatGPT成功要因は、この「アライメント」によって人間が納得する出力に調整したことによる。
著作権問題は、米国では新聞社がAI企業を著作権侵害で訴訟した。日本の場合、文化庁の見解は、学習段階は「統計的処理」であり、著作権の制約を受けず自由に利用可能となっている。ただし「不当な利益を害する場合」や「依拠性がある場合(学習データに似すぎている場合)」は侵害となり得る。
ウェブのdisallowやrobots.txt(検索エンジンのクローラー(ボット)に対して、特定のウェブページやディレクトリへのクロール(巡回・収集)を禁止する)などは紳士協定に過ぎず、無視して収集した事例もあり、訴訟に発展している。
放送事業者にとってのリスクは、自らが著作権者であり、AI利用者でもある ため、両立的な配慮が必要。生成AIは乱数を利用するため「誤りを必ず含む可能性」があり、放送での誤情報は視聴者の信頼失墜に直結する。これにより倫理・正確性・著作権保護 を重視した自社ルール作りが不可欠。
放送メディアにおける活用可能性としては、識別型AI(画像認識・音声認識)は生産性向上・サービス拡充に有効だが、ただし必ず人による確認修正が必要
生成型AIの活用パターンとしては、外部サービス活用(プロンプトエンジニアリング)、ファインチューニング、フルスクラッチ開発の3パターンがあるが、フルスクラッチ開発には100億円規模の莫大な費用が必要となり現実的でなく、外部サービス活用かファインチューニングとなる。
放送局もどんどんネット展開していくが、ネット展開しようとすると、映像を要約する必要があり、ハイライト作ったり、プレイリストを作ったり、それからタイトルを作ったり、トピック作ったり、大変な作業が多く、そういったところAIに使うと効果的だとした。
AI活用にあたっては倫理と透明性を担保する必要があり、視聴者に「生成AIを使った」と明記することが信頼維持に重要とした。また、ディープフェイク問題には外部の検出サービス(Reality Defender など)を組み合わせて対応することも必要。
最後に人間とAIの関係性については、人間と同じ知能を目指すというよりも「異なる種類の知能」に進化しているのではないかとした。AI研究の今後は「人間と比べる」から「AI独自の知能の在り方を活かす」段階に移行している。NHK技研では、今後も放送メディアを支える技術の可能性を追求していきたいと考えているとした。
続いて三菱電機 情報技術総合研究所 AI研究開発センターの伊谷裕介氏が「三菱電機AI『Maisart』による画像処理技術の実用化事例」と題して講演した。
三菱電機ではAI研究を長年行ってきたが、各拠点に分散していた。2024年度から「AI研究開発センター」として統合、コンピュータビジョン、言語処理、データ分析、最適化など複数の研究グループが連携している。同社AIブランド「Maisart(マイサート)」の下、機器やエッジ端末を賢くするAIを中心に研究開発している。特徴は軽量・高信頼・セキュアなAIを重視している。
主な研究・開発事例としては、監視カメラ分野では高齢者・障がい者支援の行動認識(杖、車椅子、ベビーカー等)、人物同定(追跡・迷子検知)、河川監視(氾濫水位検知)がある。製造現場分野では、外観検査(異常検知:良品との差分評価)や配線配置の自動判定(ラベル誤り修正で精度向上)などがある。その他には、LiDAR × AI による3D計測、音・センサーデータによる異常検知、ロボット応用(観光地での買い物配送、自動運転モビリティ)、生成AIを設計・図面解析に活用(ハルシネーション抑制も課題)などがある。
実用化における課題と教訓としては、データ品質では学習用データと運用環境が乖離し、性能が出ない。また、誤ラベル・偏り・重複が多いと大規模データでも役に立たない。例としては、監視カメラで「タヌキの置物」を人と誤認、自転車を角度で誤認識する。
モデルの軽量化では、GPUレスPCで8カメラ処理を可能にするため、量子化・モデル縮小などを実施する。多様なデータ収集では、社内収集では成年男性が多く偏りが生じ、 女性・子供・高齢者のデータが不足する。また、季節・天候・背景変化(河川監視など)も性能に影響する。生成AIによるデータ拡張も活用余地があるという。
まとめとしては、AI実用化には「高精度モデル」だけでなく、①データ品質確保、②多様なデータ確保、③モデル軽量化が必須。実運用後の課題発見とモデル更新の仕組みも重要とした。
最後にKDDI総合研究所の南川敦宣氏が「通信業界における生成AI活用事例と今後の展望」を講演した。
トランスフォーマー技術や拡散モデルが生成AIを支えているという点は、現在のAI技術の進化を象徴している。これらの技術が、特に言語と映像を組み合わせたマルチモーダル領域に重要な役割を果たしているのは、AIの実用性を高める上で大きな要素である。
生成AIを活用するためには、強力な計算基盤が欠かせない。データセンターのAI基盤構築や回線インフラの最適化が進められている点が、通信業界特有のニーズを反映しています。特に、GPUやネットワーク遅延の問題を解決するための取り組みは、技術的なチャレンジであり、未来に向けた投資でもある。
コールセンター業務への活用では、お客様対応の効率化のために生成AIを活用する試みがされており、特に「ハルシネーション」の問題に対する対策が重要。実際の応対業務においては、生成AIが高精度な回答を提供するためには、しっかりとしたデータと指示が必要で、細かい調整やチェックが欠かせない点が課題となる。
生成AIが〝賢い〟がゆえに自ら情報を埋め込んで誤った回答をするハルシネーション問題は、多くの業務において深刻。特にお客様対応では、この問題をいかに抑制するかが、実際に商業利用できるかどうかを分ける重要な要素となる。具体的には、ラグ(外部データ参照)や過去の事例を活用し、AIの回答を精緻化する方法が効果を上げている。
結果として、生成AIのビジネス活用は効率化やコスト削減にとどまらず、新しい事業やサービスの創出にも寄与していくことが期待されているとした。
この記事を書いた記者
- 放送技術を中心に、ICTなども担当。以前は半導体系記者。なんちゃってキャンプが趣味で、競馬はたしなみ程度。
最新の投稿
放送機器2025.09.29伊藤忠ケーブルシステム Bitmovinが「IBC2025」でデモを実施
放送機器2025.09.29国内初のApple Immersive Videoで撮影~渡邊氏「入念なノイズリダクションが必要」
実録・戦後放送史2025.09.29「電波技術協会設立①」
レポート2025.09.27【会場レポート】キヤノン、東京ゲームショウに初出展!Live Switcher Mobileでライブ配信を体感