山田祥平のRe:config.sys

AI導入は今でなくてもいい?

 絶対手元にあるはずだし、捨てるはずがない情報。昔だったら絶対に探し出せなかったかもしれない情報が、今なら見つかるかもしれない。そのために人間が努力しておかなければならないのは、情報の機械可読化だ。多くの情報が機械を使って生成されるようになった今、少しずつ、そのニーズも変化しているが、とりあえず、機械可読な情報はためこんでおこう。蓄める技術を究めれば探す技術はあとからついてくる。きっとあとでよかったと思うはずだ。

企業内での動画コンテンツを活かす

 KKCompany Japanが法人向けマルチメディア対応AIプラットフォーム「BlendVision AiM」サービスの提供を開始した。企業が抱えるあらゆる動画、文字情報の活用を促進する新しいプラットフォームだという。

 同社は、アジア太平洋圏に事業拠点を持つグローバル企業グループで、台湾で音楽配信事業KKBOXを出自とし1999年に創業、動画・ライブ配信ソリューションのBlendVisionなどで知られている。KDDIのauスマートパスプレミアムミュージックサービスやテレビ朝日のTELASAを支えるプラットフォームを提供するテクノロジー企業として有名だ。ちなみにKDDIはKKCompanyの筆頭株主で、45%の株式を保有している。

 今回発表された「BlendVision AiM」では、具体的には読み込ませた動画を実時間の半分程度で解釈し、その音声情報を分析し、データベースとしての可用性を持たせることができる。この先、話者判別や動画としての人の動きなども学習情報として保存し、異なるコンテンツの関係性をたぐり、自由に呼び出せるようになるという。

 コロナ禍を機に、オンラインコミュニケーションが浸透していく中で、企業内での会議がハイブリッドになり、TeamsやZoomなどを使って同時録画されるのが当たり前になって久しい。その会議の議事録を作り、要約して、参加者に配布するような仕事がAIに頼られるようになるのは正しい進化だろう。今回のシステムはそのための第一歩だともいる。

 今回、そのグランドアンバサダーとして招かれTV CMに起用された東進ハイスクールの林修氏は「いつやるか? 今でしょ」で知られるが、発表会ゲストとして登壇し、IT活用が遅れている教育現場はカンと経験に依存しているからこそAIが重要で、動画の検索ができるようになるのはありがたいとその方向性を高く評価した。冒頭の写真はKKCompany Japan合同会社代表のトニー・マツハシ氏(左)と林氏(右)だ。

 実は、先行トライアルユーザーとして、代々木ゼミナールが発売前の利用にチャレンジしていたそうなのだが、同予備校では30分程度の各教科の動画コンテンツ数千本を常時活用しているが、膨大な数のアーカイブからどのコンテンツでどんなことを解説しているのかが瞬時に抽出できることは素晴らしいとコメントしている。

現時点で参照するのは音声データのみ

 今までできなかったことができるようになるというのは素晴らしい。デジタルの旨みは手元の情報が将来役に立つか立たないか分からなくても、とりあえず、機械可読なかたちにして置いておけばきっと重宝する時代がやってくるということだ。

 発表会では、スポーツ中継を同社のAiMに学習させれば、特定の選手がどう活躍しているかを簡単に抽出できるようになるといったことがアピールされていた。もっとも、現時点で動画データの動画部分を学習することはなく、使われるのは動画に伴う音声データだけだ。それに動画やテロップなどの情報も加味されるようになるのは時間の問題だともいう。そのときが来れば再学習させれば済む話で、それが機械可読であることの重要性でもある。

 ちなみに、MicrosoftのAIサービスCopilot in Windowsでは、Edgeで開いたYouTube動画を要約させ、文字情報として表示させることができる。10分の動画を全て見ることなくその内容を把握することができている。それがもっと進化すればとも思う。

捨てなければきっと役に立つ日がくる

 今回、一連の発表を聞いて思い出したのが2005年頃のことだ。この連載のスタートが今から約20年前の2004年の5月で、その1年後の秋にソニーが「Xビデオステーション」を発売した。8チャンネルのVHF、UHF局を同時に自動録画できるビデオレコーダーだ。録画した動画はPCにダウンロードすることもできた。

 地デジへの切り替えとともにお払い箱にしてしまったが、全録ビデオの元祖ともいえるこの製品がもたらした未来への可能性は計り知れないものがあったと思う。あのとき撮りためたビデオを、今、AIに分析させれば、驚くような活用ができるに違いないし、それは、今から得られる情報をため込むことの可能性にもつながる。

 翌2006年、PFU(現リコー)のドキュメントスキャナ「ScanSnap S500」が登場した。誰もが知る有名なスキャナブランドだが、紙の書類をスキャンすると、そこにある文字は紙の上のシミから機械可読な文字データとして扱えることが新しい当たり前となった。具体的には、出力するPDFに透明属性の文字データをかぶせることによる検索性の付与だ。スキャン後、コンピュータのアイドル時間を見つけてOCR処理が行なわれるようになっていた。

 個人的にはその前モデルの「fi-5110EOX3」からのユーザーだったが、OCRエンジンが富士通製になり、その実用度が大きく改善されたことを覚えている。

 何しろ、手元の紙の書類をスキャンすればデジタルデータになり、しかも検索可能な状態になって保存されるというのは画期的だった。以前も書いたが、探せない書類はないのと同じだからだ。もちろん整理魔で几帳面なユーザーならスキャンしたデータに的確なファイル名をつけ、最適のフォルダに保存し、タグなどで整理しておくかもしれない。場合によっては異なるフォルダにショートカットを置くといったこともするだろう。

 でも、誰もがそういうことができる才能を持っているわけじゃない。というより、そういうことこそまかせられる有能なパートナーがいれば、文句一つ言わずに整理して、のちの利用に備えることができるはずだ。

 そのパートナーこそがAIじゃないかと思う。

 紙の資料のデジタル化については国立国会図書館のプロジェクトに期待している。

 はっきりいってAiMのチャレンジはまだ完成はしていない。話者認識ができなければ会議の議事要約に使うには難しいし、そもそも動画データの特性を活かし切れていない。過去の異なる会議との関係性を導き出せなければ困ることもある。人間は人間のカンや経験だけでそれをやってきたのだ。

 でも、AIは成長するし、処理系も冗長になり高度な分析ができるようになる。新たなアルゴリズムにも期待できるし、実用が不安だった膨大な処理も余裕でこなせるようになるだろう。期待に添えるようになるのは時間の問題だ。

 林修氏はこうも言っていた。AI技術の開発は欧米に先にやられてしまったかもしれないが、その活用のところで他国にないような技術を作れれば、キャッチアップできるかもしれないと。資源はないが技術立国として、ここからの活用で活路を見出してほしいと。

 やるなら今でしょ! とは限らないということか。