ニュース

MetaはなぜAIをオープンソース化したのか。そして現在開発中のAIとは

 Metaは8日、都内で「AI at Meta Day」と題した報道機関向けの発表会を開催。米国から来日した開発担当者らが、同社のAIへの取り組みについて解説した。なお、いずれも発表済みの内容であるため、本記事はおさらい的な内容となる。

 冒頭では、同社Director, AI ResearchのPascale Fung氏が挨拶。近年AIの利用が一般でも浸透してきている中で、企業が責任を持ってAIを開発しなければならないと指摘。また、技術的にも、必ずしもモデルの大規模化が求められているわけではないなど、さまざまな重要課題が残されているとした。

 その中でMetaが注力しているのはオープンなAIの実現である。MetaのオープンなAI基盤が誕生する以前は、倫理的な観点などからクローズなAIが多かった。しかしMetaはオープンサイエンス文化を目指しており、最終的にはAMI(Advanced Machine Intelligence)、つまり人間のような認知能力と幅広いタスクへの適応の実現を目標として掲げ、オープン化に踏み切ったという。

Pascale Fung氏
Metaが目指すAMI

 同社は10年以上に渡ってFAIR(Fundamental AI Research)のチームと製品チームが緊密に連携。科学領域においての製品化を数カ月単位という非常に短い期間で展開してきた。そしてこれまで1,000以上にわたるオープンソースモデルを提供し、AIコミュニティに対してさまざまな基盤モデルで貢献を行なってきた。

 オープンソースとして提供するからこそ、責任感を持てるようになるのに加え、人々が迅速にAIのメリットを享受できる一方で、Metaとしては学習中や研究開発の後でも、コミュニティからのフィードバックを反映することでリスクを軽減でき、安全性が高いAIを実現できるとする。

 実際にLLMについてはオープンにすべきという議論もあり、今でもクローズなアプローチをするべきという人はいるものの、GoogleがGammaをリリースしたり、アカデミックからも新しい提唱がされるなど、この潮目が変化してきているとした。

 こうしたオープン化の取り組みもあって、近年AMIにおいて多くの成果を挙げた。ちなみに同社が掲げるAMIは、以下の特徴を持つものである。

  • 認知--人間と同様に物事を観察できるようにする
  • 記憶--同じことを言われたり実行したりする際はそれを長期的に覚えている
  • アクター--考えなどを実際に行動に移すこと
  • コストモデル--AIが考えることと人間が目指すことの整合性が取れている
  • ワールドモデル--以上のことをまとめ、計画を行なうこと

 このAMIの実現に向け、同社は投資を続けており、2024年末には35万台規模のNVIDIA H100に相当するコンピューティングパワーを有することになるが、これを将来的に60万台分に相当する拡張させるという。

AMIの中枢となるワールドモデル
AIインフラへの投資

 また、今後もモデルのリリースごとの倫理やプライバシー観点からのチェック、外部ベンチマークへの対応、人やAIの両方からの安全性評価、レッドチームの設置などを介して、安全で責任あるAIの提供を行ない、オープンであるという特徴を生かしていくとした。

 続けて、AMIの実現に向け、最近発表された新しいAI技術についての解説がなされた。

汎用的なオブジェクト認識「SAM」

 「SAM」はゼロショットで画像からシングルクリックでオブジェクトを認識するAIである。たとえば画像の中で散らばった1つの野菜をクリックすると、それを個別に認識する。AMIを実現するの中で「認識」は、もっとも基礎的な部分にあたると言えよう。

 7月に発表された「SAM 2」ではビデオにも対応できるようになったほか、「記憶」により、ビデオ内でそのオブジェクトが一時的に消失しても、再度現れた時に再認識できる。また、現実風景のみならずアニメ内オブジェクトも認識可能だ。

オブジェクト認識により可能になること
「左足」と「ボール」を認識させ追跡しようとしたところ、脚がボールに隠れるシーンで右足が認識されることもあるが、ワンクリックで非認識化できる
SAM 2では各フレームを分析するが、オブジェクトが隠れたりしても認識し続ける
SAM 2の動画におけるオブジェクト認識のため、51,000のビデオや60万枚以上のマスクを利用した

音声生成AI「Voicebox」と「Audiobox」、翻訳技術「Seamless」

 「Voicebox」はいわば指定した声でテキストを読み上げるテキスト・トゥ・スピーチの技術であるが、「Audiobox」はテキストプロンプトでその音を加工したり、環境音や音響効果を付加したりできる。これを組み合わせることで、たとえば「早口の女性が指定した文章を読み上げる」、「男の人が中規模のホールで大声で話すような感じで読み上げる」といったことが実現できる。

Audioboxのワークフロー
男性が広いホールで大声で話すシーンも再現できる

 こうした技術と組み合わせて新たに開発されたのが、リアルタイム翻訳の「Seamless」だ。Seamlessは次の単語をなるべく待たずに可能な限り速く翻訳を行なうのが特徴で、その言語の文法によるが、長くても2~3秒程度の遅延と、人間の同時通訳に近い形で音声で指定した言語に出力できる。これにより人類の言語を壁を取り払うことを目指す。

言語の壁を取り払うSeamless
特定の言語の文法によっては単語が来る位置が異なるため完全にラグなしとはならないが、あまり待たずに出力するのがSeamlessの特徴
リアルタイム翻訳のみならず口調も生成して翻訳を行なう

大規模から小規模まで展開しているLLM「Llama」

 Metaを代表するAIといえばLLM(大規模言語モデル)の「Llama」だろう。より大規模へ向かうLLMが多い中、Llamaはコンパクトなモデルから超大規模のモデルまで用意している(Llama 3.2では1B/3B/11B/90B)のが特徴となる。

 オープンソースのAIであることから、これまで4億回以上のダウンロードされ、成長率は10倍、派生モデルは65,000以上にのぼる。優れたコストモデル、APIを介して利用できるLlama Stackの提供、シリコンパートナーの提携などから、業界でもエコシステムが大きく成長し、日本や韓国、シンガポール、台湾といったアジアでも採用例が増えているとした。

Llamaの進化
Llamaの実績
優れたコストモデル
APIを介して使えるLlama Stack