ニュース

言語や画像「生成AI」のこれまでとこれから。ベンチャーキャピタルDEEPCOREが総ざらい

森山和道

2023年5月30日 06:14

　AI特化型ベンチャーキャピタルのディープコア(DEEPCORE)は、2023年5月29日にGenerative AI(生成AI)領域の最新動向についてメディア向け勉強会を開催した。新たな課題や懸念も抱かれつつ、主に「画像」と「言語」の領域で技術が進み、活用領域が広がりつつある現状が紹介された。

AI特化型VC DEEPCORE

　DEEPCOREは「CORE for Disruptive Innovations」をミッションに、AI、特にディープラーニング分野の優れた起業家育成を目指すAI特化型ベンチャーキャピタル(VC)。2018年に組成した「DEEPCORE TOKYO1号」、2021年の「DEEPCORE TOKYO2号」、起業家のためのコミュニティ「KERNEL」の運営、アーリーステージのスタートアップに特化したアクセラレータープログラム「KERNEL Global Startup Camp」の開催など、スタートアップ支援を行なっている。

　株式会社ディープコア代表取締役社長仁木勝雅氏は「技術者の方に起業してもらいたいと考えてこの取り組みを行っている」と述べて活動を紹介した。投資先はエンジニアが創業者の会社が約6割で、経営チームに技術者が入っているチームのみに出資をしているという。投資の傾向については、シードが約5割、日本が8割、50%強でリードをとっている。

　1号ファンドの主な投資先は、流通・小売、医療・ヘルスケア、スポーツ。ノーコードのアプリ開発を行うBuilder.ai、無人ロボットカフェのNew Innovationsやコンビニの商品陳列無人化をはかるTELEXSITENCE、九州大学発スタートアップの病理診断AIを開発するMedmain、主に米国プロスポーツ向け運動解析のUPLIFTなどが含まれている。

　2号ファンドもAIを中心に投資。生成AI、ロボティクス、量子コンピューティングなどを主な対象としている。コミュニティの「KERNEL」には、AIなどの知見を持つ約500名が属しているという。日本から海外へ進出するスタートアップの支援も行なっている。

DEEPCOREはAI特化のVC

コミュニティ「KERNEL」も運営

AIは予測からクリエイティビティの領域へ

Tomeを使って自動生成されたプレゼンスライド

　生成AIの応用範囲はアートやエンターテインメント、ヘルスケアや金融など多岐にわたる一方、ディープフェイクやフェイクニュースなど倫理的な懸念も存在している。株式会社ディープコア取締役CFOの雨宮かすみ氏は、最初にプレゼン自動生成アプリの「tome」を使ったスライドを紹介。何についてのプレゼンを作成したいかをテキストで入力すれば、それだけでスライドを自動生成してくれるサービスだ。

　続いて、AIを活用して製作したCM動画を紹介。GPT-4でスクリプトを書き、Midjourneyで画像、ビデオクリップはRunway Gen2、音楽はSOUNDRAW AI Music、編集にはAdobe After Effectsを使ったもので「すべて自動生成でこれくらいのコンテンツはできる」という。

AIを使って自動生成したCM動画の一部

　今や「生成AI」という言葉を耳にしない日はない。「生成AI」とはコンテンツやモノについてデータから学習し、それを使用して新しいアウトプットを生み出す機械学習手法だ。雨宮氏は「これまでのAIは過去データから未来を予測することに使われていたが、新しいものを作り出せるようになった。『予測』から『クリエイティビティ』の領域に入った」と語った。

生成AIへの投資市況

生成AI領域への投資の状況。言語と画像が2大領域でHMIも伸びている

　生成AI領域への投資総額は2022年までを見ても増えているが、2023年にも、かなり大型の調達が既に多数実施されている。カテゴリごとの投資額を見ると画像を生成ビジュアル領域と言語が2大領域となっている。また直近では、ヒューマン・マシーン・インターフェイス領域も大きくなっているという。

生成AIの画像生成の概略

画像生成エンジン

　画像生成エンジンは、画像の内容やスタイルを「プロンプト」と呼ばれるテキストを入力することで、指示にあった画像を生成する。Stabiity AIの「Stable Diffusion」、OpenAIの「DALL-E2」、Midjourneyなどが広く知られている。いずれもテキストを入力すれば画像を作り出してくれる。

　技術的には、テキストエンコーダと画像生成器からなる。生成の部分は以前から広く「GAN(Generative Adversarial Network)」が使われていた。生成器と識別器が対立的に競争することでモデルを構築する。それが最近は、Diffusion(拡散) Modelが多く使われるようになった。画像にノイズを加える過程を逆算することでノイズから画像を作り出すことを可能にしたモデルだ。

GANとDiffusion(拡散) モデル

　テキストを画像エンジンが分かるように変換する技術には2021年にOpenAIが公開した「CLIP(Contrastive Language-Image Pretraining)」という事前学習モデルが活用されている。大量にタグ付き画像を学習することで、画像とテキストの類似度を算出、どういうテキストがどんな画像に近いのかを判断することができる。OpenAIの「DALL-E2」は「CLIP」と「拡散モデル」がコアになっている。

「DALL-E2」は「CLIP」と「拡散モデル」がコアに

画像生成技術の進展

　さらに昨今は、画像の端の情報を使うことで描かれていない画像の外側を生成してしまう「アウトペインティング」や、画像の一部を別のものに置き換える「インペインティング」によって、表現の幅が広がっている。

外側を自動生成する「アウトペインティング」、内側を別の画像で入れ替える「インペインティング」

　また、追加学習やファインチューニングツールも発展している。雨宮氏は2つの例を挙げた。1つは「ControlNet」だ。Stable Diffusionと組み合わせて出力をコントロールできるツールで、たとえば姿勢を変えられる棒人間に宇宙飛行士を足すと、任意のポーズを取った宇宙飛行士を出力させるようなことができる。つまり生成画像の人間のポーズや構図の指定ができる。最終調整のために使われているという。

　「LoRa」は、生成画像に特定の画風やトーンを簡単に加えるための追加学習モデルだ。これを使うとさまざまな画風が再現でき、既に大いに活用されている。だが同時に、著作権問題を生み出してしまうところにも関わっている。

人の姿勢を変えられる「ControlNet」、画風を変えられる「LoRa」

　入力するプロンプトについてもリバースエンジニアリングができるようになりつつある。Midjourneyは画像をアップロードすると、その画像を出力するためのプロンプトを提案する「describe」機能を提供開始している。つまり画像をプロンプト化する機能だ。こうなると何かの画像があれば、だいたいできることになる。

Midjourneyの「describe」ではプロンプトのリバースエンジニアリングが可能に

　静止画だけでなく、動画の生成も可能になり始めている。Runway が開発している「Runway Gen-2」はテキストから動画を生成する。「砂漠の風景のドローン画像」と入れると、それっぽい動画が生成できる。

　また従来は画像内の文字の反映が苦手だったが、Stability AIの「DeepFloyd IF」は画像内の文字の反映を得意とする。文字を入れ込んだ動画も簡単に作れる。

　OpenAIが発表した「Consistency Model」は、ノイズを除去して画像を作り出す拡散モデルの発展版で、時間と計算量がかかるステップ数を削減することで、画像生成を高速で行なうことができる。リアルタイムに近い処理も可能になると応用範囲も広がる。

「DeepFloyd IF」は画像内文字を描き、「Consistency Model」は計算ステップを削減

画像生成の活用領域は拡大中

ShutterStockやAdobeはAI活用に積極的

　既存プレイヤーには、積極的にこの動きを取り込もうとしているところと、新しい動きを封じようとするところがある。ShutterStockとAdobeは取り込もうとしている側だ。ShutterStockはOpenAIとの連携を早々に発表。これまでクリエイターを抱えて、その写真を販売していたが、クリエイターだけではなく自動生成した画像も販売できるようにしている。また学習素材にされた提供者にも、その対価を払う仕組みも整備している。

　Adobeは3月に「Adobe Firefly」ベータ版をリリース。その一部機能が「Generative Fill(ジェネレーティブ塗りつぶし)」としてAdobe Photoshopに組み込まれた。

　データ観点での活用でも活用は広がりつつある。フィンランドのユヴァスキュラ大学では、医療AIの作成に生成AIを活用している。学習領域が足りないところに画像を作り出すことができるので、医療領域で少ない症例画像を作り出すことで、精度が高い画像認識エンジンを作るめに使っている。このように生成AIを使うことでデータを増やすことで、少ない例しかない場合でも分類AIの精度を向上させることができる。

　また、プライバシー問題もあって、人の顔や動作データを大量に取得することは難しい。Datagenでは、そこに生成AIを使って学習データセットを提供している。

データを集めにくい領域の生成AI活用も広がる

画像生成AIの課題

学習データの著作権問題も発生

　争いも起きている。学習データの著作権においては、ストックフォト大手のGetty Imagesの画像1,200万枚以上を無断・無償で学習に利用したとしてStability AIを提訴している。なぜ分かったかというと、サンプル画像に入っていた透かしがStability AIの生成画像上で再現されてしまっていたためだ。これが米国著作権上のフェアユースにあたるのかどうかが問題になっている。

　生成画像自体の著作権も問題になっている。特定の著作者の画風やタッチを残したまま画像を生成した場合、それは侵害なのか否か。そもそも生成画像に著作権はあるのか。原則として「ない」とされているが、創作的寄与がある場合は発生するとも言われており、厳密な線引きは難しいのではないかという話もある。

生成AIを使った「創作」とは何かという議論も起きている

大規模言語モデル(LLM)の概況

LLMは大規模化によって飛躍的に性能が向上

　以上が画像生成の話だが、言語生成領域の話も続けられた。大規模言語モデル(LLM)はさまざまな言語系タスクをこなす基礎となっている。キーとなった技術はGoogleが2017年に発表したTransformerで、それ以後、技術的に革新があったかというとそんなことはなく、むしろ大規模化によって近年の直近の言語モデルの発展は起きている。

　なおTransformerの特徴は「アテンション機構」だ。文章全体を見てどこが重要かを重み付け処理できる。これにより並列処理が可能になり場所が遠い言葉であっても関連を見出すことができるようになった。Transformerをベースにして構築されたLLMは、パラメーター数の大規模化とそれを可能にするコンピュータの処理性能向上によって飛躍的に精度が向上した。

　特に直近、指数関数的にパラメータ数が伸びてきたことが大幅な性能向上に繋がり、技術者たち自身も予想もしてなかった学習も起きているのではないかという話もあって議論になっている。

　LLM開発にはコストがかかるので大手テック会社がメインで開発している。ただし最近は、パラメーター数が小さくても十分な精度は出せるという研究もあり、敢えて極端な大規模化を狙わないアプローチも出てきている。

LLMの多くはテックジャイアントが開発を行なっている

　一般に広く知られるに至ったOpenAIの「ChatGPT」は、LLMのGPTをベースにして、特に対話のインターフェイスに特化したものだ。教師あり学習と人間のフィードバックに基づいた強化学習を活用することで、人間にとって、より有益な対話ができるようになったものだ。できることはアイデア提案やリサーチ、いわゆる「壁打ち」の相手など。有料版はマルチモーダルな学習を行なった「GPT-4」をベースにしており、多くの応用が模索されている。

大規模言語モデルの活用領域は探索中

対話ビジネスを行なっている会社では早速応用が始まっている

　大規模言語モデルは対話用途に開発されたものなので、言語理解や対話ビジネスを行なっていた既存の会社が自分のサービスに取り入れてサービスを改善するのに使っているタイプが多い。語学レッスンアプリの「Duolingo」はGPT-4を活用して何が間違いなのかを説明したり、ロールプレイができる。「Tome」のプレゼン作成については上述の通り。

　論文段階では「レシピ考案AI」も報告されている。冷蔵庫のなかを撮影した画像から、LLMが料理レシピを提案する。

　「MiniGPT-4」はサウジアラビアのキング・アブドゥッラー科学技術大学の研究者らが発表したもので、画像と何をしてほしいかの文章をセットで入力すると、いい感じのキャッチコピーを出力してくれる。

Microsoft、Google、Amazon、NVIDIAなどビッグテックの動向

Microsoftの動向

　LLM周辺では、大企業の動向がキーになっている。OpenAIに出資しているMicrosoftは、「Bing」や「Copilot」矢継ぎ早にリリースを出してAI連携を強めている。AMDと独自のAI向けプロセッサ「Athena」の開発に取り組んでいるとの報道もある。

　GoogleはChatGPT登場以降、慌て気味に「Bard」を公開して一時つまづいたものの、巻き返しをはかっている。5月のGoogle I/Oでは大幅アップデートを発表した。PaLM2や画像編集機能なども発表された。生成AI機能を搭載した検索エンジンのテストも行なわれており、雨宮氏も「今後どんなことをやるのか楽しみ」と語った。

Googleの動向

　AmazonはAWSの側面で動きがあった。みんなが使う道具・環境を提供する立場として、AWSで独自の生成AIアプリケーションを開発できる「Amazon Bedrock」を発表している。各種基盤モデルにAPI経由でアクセスし、自社データでモデルのファインチューニングができる。そのほかコーディング支援ツールなども提供している。

　一方対話ではAmazonには「Alexa」があり、Amazon独自のLLM「Alexa Teacher Model」を活用してAlexa再構築を計画しているという。

Amazonの動向

　ゴールドラッシュ時のツルハシを提供する企業の代表格がNVIDIAだ。3月のNVIDIA GTCでは「AI Foundations」を発表。AI Foundationsはテキスト生成生成モデルの「NeMo」、画像・動画・3D生成モデルの「Picasso」、ライフサイエンスに特化した言語モデル「BioNeMo」の3モジュールから構成されている。

　5月にはDellと共同で生成AIをクラウドではなくオンプレミスで構築するための環境をフルスタックで提供する「Project Hacks」を発表した。またMicrosoftとも連携。「Azure Machine Learning」に「NVIDIA AI Enterprise」ソフトウェアを組みこむと発表した。

NVIDIAの動向

自律型AIエージェントも登場、懸念も

より直感的に扱うための研究開発・実装も進む

　プロンプトエンジニアリング等を、より直感的にするための取り組みも進んでいる。Replitはコード自動生成ツール「Ghostwriter」を提供。Googleとも提携し、自律型プログラミングエージェントの実現を目指している。

　「AutoGPT」や「BabyAGI」は、目標を与えると、それを達成するための必要タスクを生成し実行するボット。生成Aiにタスクをふることを簡単にするためのエージェントで、タスクの切り分けなどをエージェントが手伝ってくれる。雨宮氏は「秘書のようなボットが作られつつある。このような方向性はどんどん出てくるだろう」とコメントした。

　このように急速に進展するLLMに対して、開発速度が速すぎると考えて一時的に開発を止めるべきだという主張も上がり始めている。一方、規制は必要だがイノベーションを犠牲にすべきではないという声もある。技術者のなかにもさまざまな立場があるのが現状だ。