ニュース
ChatGPTが成功したワケは?そして検索への影響、生成AIの法制度は?
2023年6月5日 09:37
国立情報学研究所(NII)は2023年6月2日、3日の日程で研究成果を一般公開するオープンハウスを行った。2日には「ChatGPTを考える」と題して生成AI関連の基調講演を、技術、活用、法律の観点から3つ行なった。NIIは情報学の研究・事業にフォーカスした唯一の国の研究所。2023年4月からは黒橋禎夫氏が所長を勤めている。研究と事業を両輪としていることが特徴で、世界117の主要大学・研究機関と協定を結んで活動を行なっている。
研究は情報学プリンシプル研究系、アーキテクチャ科学研究系、コンテンツ科学研究系、情報社会相関研究系の4つから構成され、大型の研究費を使っている研究が多い。ニーズからスタートする応用駆動型の学術研究では企業とパートナーシップを組んで進めている。生成系Aiの登場で改めて注目されるフェイク問題については、その検出の研究を以前から世界に先駆けて進めている。コミュニケーションの壁を超えるための研究も行なわれている。
事業については「オープン・サイエンス」の拡大に貢献すべく進められており、ネットワーク基盤、データ基盤をベースに新たな開発が進められている。ネットワークは2022年4月から「SINET6」の運用を開始。その上にSINETクラウドサービスを構築している。大学や研究機関向けには学認クラウドサービスや認証サービスを展開するなど、大学の情報環境の整備支援を行なっている。
セキュリティ面では「NII-SOCS(ニーソックス)」を構築し、運用を行なっている。各種論文データベースやリポジトリの提供も行なっており日本全体で使われている。最上位には研究データ基盤「GakuNin RDM」があり、2021年から本格運用されている。AI活用推進のための研究データエコシステム構築事業もNIが中核機関となり進められており、NII RDC(リサーチ・データ・クラウド)を各側面から高度化する。
NII所長の黒橋氏は「今後は研究と事業がより密接に関わり合い、外部ともシナジーを進めたい。情報は人間が解釈して意味を持つもの。人間のほうに研究を進めていきたい。データを昇華させたものは知識。知識基盤を作り、AIの基盤モデルと学術知識グラフの両方を使って多様な分野の研究者が協業し、総合知で社会課題の解決に向かっていく。そのためのものとして知識基盤を考えたい」と語った。
そして「今は大きな嵐のなかにいる。大規模にしないと立ち行かない。NIIのなかでもオープンソースで日本語の大規模言語モデルを作るための活動を始めている」と述べ、生成AI関連の基調講演に続けた。
大規模化した「対話型文章生成AI」を支える技術
まずはじめに東北大学 データ駆動科学・AI教育研究センター 教授の鈴木潤氏が「ChatGPTを支える技術」と題して講演した。GPT-4を含むChatGPTの詳細な構築方法は公表されていない。また情報も頻繁に更新されている。そこで鈴木氏は今回の話は「あくまで今日この時点での情報だと思ってほしい」と断ってから、公開情報ベースでChatGPT を支えていると考えられる技術の動作原理や理屈を解説した。
ChatGPTに代表される対話型文章生成AIは、一般向けに一言でいうと「対話形式の指示を受け付けて、その指示に適した文章を生成する文章生成器」だ。なかでもChatGPTは2カ月で月間アクティブユーザー数が1億人に達するなど大いに注目されている。
だが、ChatGPTは文章を入力したら文章を返すだけのサービスだ。何がユーザーの心に刺さったのか。その理由は、高度なクオリティの対話AIが、無料で使えるようになったことだと考えられる。しかもほぼあらゆる指示に、そこそこ対応してくれる。
ChatGPTは、ほぼ人間と同様の感覚で、「いい感じ」の答えを出してくれる。たとえばスピーチの原稿を書いてくれるし、さらに「続けて」というと続きを書いてくれる。対象に合わせた書き直しもやってくれる。適切かどうかは別として、とりあえず要求したことはやってくれるし、ブレストの相手もしてくれる。
なぜこれができるのか。鈴木氏は基盤は「言語モデル」であり、成功要因は5つだとまとめた。言語モデルとは文章の出現確率を予測する確率モデルだ。主に与えられた文脈に対して次の単語の予測確率をモデル化したものだ。
たとえば「東北大学は、」と入力すると、事前に学習した大量のデータから、そのあとに続きそうな単語を確率的に予測する。そして文章を生成する。文章を生成するときは文章の先頭から1単語ずつ次の単語を予測し、文章が終わるまで繰り返す。
成功した要因の1つ目は、言語モデルを多層ニューラルネットワークで構築したニューラル言語モデルだ。世の中にある文章を持ってきて、1個1個の全ての単語に対して、文脈と正解次単語の関係を分類問題として学習させた。
学習に使われた深層ニューラルネットワークは2017年に発表された「Transformer」だ。もともとは機械翻訳用として提案されたものだが、今ではGPTだけではなく、PaLM、LLaMA、OPT、BLOOMなど、多くのニューラル言語モデルで使われている。ニューラル言語モデルの利点は、学習データに存在しない文脈でも、類似文脈があれば、そこから次の単語を予測できるところだ。
要因二つ目は大規模化。データ量とパラメータ数を増やせば増やすほど、どんどん性能が良くなっていくスケーリング則があることが知られている。そのためパラメータ数と学習データ量は年々増加し、性能が向上していった。
2020年に発表されたGPT-3の論文の中には人間が書いたのと判別できないほど流暢な文章を作れることが示されていた。全てできるわけではないが、長文でも自己矛盾が生じない文章ができるようになった。これはなぜか。鈴木氏はとにかく大規模化したことが要因ではないかと推測を述べた。大量のテキストをニューラルネットワークのなかで全部数値化して覚えてしまうようなことをしたことで、流暢な文章が作れるようになったのではないかという。
もともと言語処理タスクは、それぞれ個別のタスクに特化したモデルを作って、タスクを解いていた。それに対してGPT-2やT5は、単一モデルで、あらゆる言語処理を解くことを目指した。これが先駆けとなった。つまり「すべてのタスクはテキストに落とせる」と考えてタスクを処理させたのだという。
成功要因3つ目はプロンプト。文脈、指示文を与える方法だ。言語モデルは与えられた文脈に基づいて文章を生成するので、文脈を工夫すればいいというわけだ。なぜわざわざ「プロンプト」というかについては「文脈」と呼ぶ以上の何かがありそうだからだという。
指示文の設計はプロンプトエンジニアリングと呼ばれている。たとえば例を与えると、それに合わせた出力をしてくれる(Few-shot)。数学の文章題でも、文章題の考え方を入力して教えると、その解き方に合わせて、うまく解いてくれる。つまり、文脈をうまく工夫すると、生成される文章をある程度制御できる。しかし、うまくいかない場合もある。人間がうまくいくプロンプトを試行錯誤で探さなければならない。
この工夫が成功要因4つ目の、指示文と対話文による微調整学習だ。人が人に指示を与えるような文章で直接学習させる。お題を決め、その指示文の回答候補を人間がお手本として考える。それをたくさん作れば、人手で作った文章で言語モデルを追加学習させられるので、それっぽいアウトプットが出せるようになるというものだ。このやりとり、対話的例文を作ることにより、人間相手のチャットみたいなものができるようになった。ディープニューラルネットワークの能力を活用しているためデータはあらゆるものを網羅する必要はなく、意味的に類似のものを学習すれば対応できる。こうすることで、対話が可能になった。
しかし、課題もある。人間の社会通念上よくないことを出力することもある点だ。これでは一般利用できない。そこで人手によるスコア付けを行なった。出力結果に対して人間が良し悪しをスコアづけして学習させる。「人間のフィードバックを使った強化学習」と呼ばれている。このモデルに基づいて学習するので、人の良し悪し判断を反映した学習が可能になる。また、出力してほしくないものを抑制できるようになった。
以上の技術と工夫によってChatGPTは作られていると推測される。大規模なニューラルネットワークを使った巨大な言語モデルによって知識と文章の流暢さが獲得でき、指示文や人手点数づけの利用など全部合わせた結果、指示文を理解し、不適切発言を抑制しつつ、対話的なやりとりができるようになった。流暢さは人間以上で、長文であってもほぼ破綻のない文章を出力でき、さまざまな指示に対応する。
最後に鈴木氏は「ただし、全て人間が作ったデータでできている。魔法のような何かでできているわけではない」と強調した。基本的には人間の文章を模倣しているだけだ。また文章生成AIによる課題として、情報の正確性、バイアス、プライバシー/コンプライアンス、データ汚染などの問題が既に挙げられている。
「情報検索」から「知識とのコミュニケーション」へ
続けて、理化学研究所 AIP言語情報アクセス技術チーム テクニカルアドバイザー で、元マイクロソフト対話型検索プロダクトマネージャーの鈴木久美氏が「Bing対話型検索とGPTモデル」という演題で大規模言語モデルとWeb検索との関わり、応用の利点と現時点での限界について講演した。
2023年2月に、マイクロソフトはGPTモデルをインターネット検索「Bing」に応用したサービスを開始した。鈴木氏は1月下旬までこのサービス開発のプロダクトマネージャーだった。3月にマイクロソフトを退職。4月から現職となっている。鈴木久美氏も「(鈴木氏がPMを離れたあとの)4カ月でだいぶ変わっているのではないか。明日になったら違うことがあるかもしれない」と断ってから話を始めた。
鈴木氏は対話型の前は音声対話、その前はAIアシスタント「Cortana」のPMだった。自然言語処理の技術を使って検索を良いものにするための研究開発を行なってきており、キーコンセプトは「情報検索」から「知識とのコミュニケーション」へだったという。これは鈴木氏に限らず「検索に携わる人はみんなそう思っている」ことだと述べた。
これがGPTが登場して飛躍的に変化した。たとえば「朝ご飯って食べたほうがいいの?」といった自然な質問に対しても、分かりやすい出力をしてくれる。自然な入出力が可能になった。文脈も理解する。自然なコミュニケーションに欠かせないやり方がGPTモデルでできるようになった。会話を進めやすくなると、知識も深めやすくなる。
たとえば「レオナルドの最後の晩餐でイスカリオテのユダは向かって右から何番目?」といった、こみいったクエリにもピンポイントで答えてくれる。さらに付け足しで面白い情報を付け加え、ソースも示してくれる。もともとのGPTにはない情報も、Bingでは検索と組み合わされて結果が返ってくる。
マイクロソフトは2023年2月に、BingのAIチャット検索における開発経緯や独自のAIモデル「Prometheus」について、公式ブログで発表している。大枠では現在もこれと変わっていないと思われる。
現在のBingは3つの部分からなっている。従来型検索、次世代GPTと当時は言われていた大規模言語モデル部分、そして、両者の仲立ちをするオーケストレイターだ。検索エンジンの結果を文脈にしてプロンプトに入れるとGPTが要約を返してくる。このシンプルな仕組みで色々なことができるようになっている。自然な入出力、文脈理解、対話を通じて理解を深めること、ピンポイント回答の4つが、この3つのモジュールを組み合わせることで実現できている。
では従来の検索はどういう形でできてきたか。最初はリンク出力、つまり関係ありそうなリンクを持ってくるだけだった。実際には質問には答えず、答えがありそうなリンクを示すだけだ。これがベースで、「この20年くらいのあいだ、少しずつ知識とのコミュニケーションの方向性に進もうとしていたのが検索」だったという。
一方簡単に答えられるものもある。たとえば「今年の海の日はいつ?」といった質問であれば、ストレートに答えることができる。Googleでは入力を終える前に答えを予測して出力することもある。
中には天気予報などビジュアルで出力することもある。一部の結果の出力はこのようにリッチになってきたが、分野は限られていた。また、英語では答えが出るが、日本語では出ないこともあった。だがこれらも努力の一部だ。
方向性は異なるが、AlexaやSiriのような音声アシスタントもある。音声認識技術の向上の結果、音声でデバイスをコントロールするような応用が可能になった。たとえば「タイマー」というと「長さはどうしますか」と答えるなど、ある程度の文脈理解はできる。だができることは限定されている。
そこにGPTが登場し、入出力ともに自然で文脈を理解し、汎用で、どんな質問にもだいたい答えてくれる仕組みが登場した。鈴木氏は専門家の立場から「こんな短期間で可能になったことは驚きだった」と改めて述べた。
音声アシスタントはアクションの手助けをしてくれる。Bingのようなサービスはまだそこには行っていないが、アクション関係もAPIを使うことで可能になりつつある。まず確実にそちらの方向に向かうと考えられる。実際に鈴木氏があるお店を検索して空き時間を調べたところ「APIを使って予約しますか?」と出てきたという。実際に「予約しました」と言ってきたが、その確認メールは来なかったそうだ。まだまだというわけだ。これはただのレストラン予約だが、これがネットバンキングや証券取引になると怖い。「だけど必ずこちらにいくだろう」と鈴木氏は語った。
言語生成AIの大きな課題は「口から出まかせ問題(Hallucination / Fabrication)」だ。Bingでは検索をかませることでハルシネーションを減らしているが、これにも課題がある。前述の「レオナルドの最後の晩餐でイスカリオテのユダは向かって右から何番目?」という問いに、Bingは実は最初は「右から3番目」と答えたが、実際には左から4番目とされている。言語モデルは事実とは関係ないことを言ってしまうのだ。
なぜこのようなことが起こるのか。言語モデルが持っている知識には、「言語」の知識と、「世界の事実性」の知識があるが、言語モデルは、その2つを全く区別していないからだ。
また、文章の細かいところを見るとおかしいことがある。たとえば本来は「では」というべきところで「には」と言ってしまっていたりする。言語モデルがこの2つを区別していない結果だと思われる。さらに言語モデルは「知らない」と答えることが苦手で、知ったかぶりをしてしまう。「無知の知」からは遠い状態にある。
聞き方によって違う答えを返すこともある。明示的にあることが書かれている文章が検索すると引っかかってくると、それに答えが引っ張られてしまう。鈴木氏は「イスカリオテのユダはどこに座っているのか」という質問に対しても、全く異なる返事が返ってきてしまう例を挙げた。
また別の例として、6月2日の8時40分に「(将棋の)藤井聡太はいま何冠? 」と質問した例を挙げた。 Bingは「7冠を達成した」と正しく答えたが、8時30分には「6冠」と答えたという。つまりその時点では藤井聡太氏が7冠になったというインデックスが入っていなかったためだ。
また、現在は持っていないタイトルは何かと質問したところ、本当は持っていないのは「王座」だけなのに、「名人、棋王、王座の3タイトルを持っていない」と答えた。これは、過去の文章のなかに、その時点で持っていないタイトルが書いてあったところがあったためだ。つまり、検索をかませることでハルシネーションは減る。だが、だが現状の繋ぎ方では間違いも起こり得ることを示している。
言語モデルはモデルのパラメータ数とデータ量が大きくなると線形で質も向上する。鈴木氏は「だが使う側からすると急に良くなった」とコメントした。「昨年(2022年)夏くらいから急にすごくよくなったのはすごく不思議。しかも汎用で汎言語。従来モデルは日本語は必ず質が悪く、質を向上させるのに何カ月もかかっていた。しかしGPTは英語とほぼ遜色ない。本当に驚きだった。汎用で汎言語であることは純粋にテクノロジーとしてすごい」と改めて驚きを語った。
そして「現在はすごく初期。基盤技術も応用もまだ初期の段階で、理解が追いついてない。法整備、技術理解にもとづいた課題への取り組みも必要。オープンな議論の場が必要」と述べた。
生成AIの法制度の問題。EUの状況を中心に
3番目は「生成系AIと法制度」と題して、一橋大学大学院 法学研究科 ビジネスロー専攻教授の生貝直人氏が、当日発表された最新情報も含めて、著作権、個人情報、有害情報、EUの規制案などについて世界各国で進められているルール作りの法的論点や生成AIに関する法制度のあり方について講演した。
著作権については日々議論が行なわれている。論点は3つ。開発・学習段階、生成・利用段階、生成物の著作権は誰のものかという3つだ。まず開発・学習段階については、機械学習のための利用は認められている。ただし「必要と認められる限度」であることと、「著作権者の利益を不当に害することとなる場合」には権利制限の対象とはならないとされている。この部分の解釈が難しい。
2つ目は生成・利用段階。学習されたものは既存の著作物の侵害となるのか? 既存著作物と類似性と依拠性が認められる場合、生成物の利用が著作権侵害となる場合がある。ただし似ていても参照した証拠がなければ著作権侵害にはならない。
3つ目、生成物の著作権は誰のものなのか。著作権法が保護するのは人による創作物だけなので、AIや人以外の動物による著作物は保護対象にならないのがおおよそ各国共通だ。しかしAIを使うときにたとえば非常に複雑なプロンプトを使った場合はどうなるのか。人の創作的寄与が大きい場合にはその人の著作物となる。大きくわけると論点はこの3つだ。
EUでは学術目的の場合は権利制限の対象、それ以外の営利目的では権利者のオプトアウトを認めている。アメリカはフェアユース条項があり、フェアである限りオーケーとなっている。
これを踏まえて「著作権者の利益を不当に害する場合」を1つ1つ法律で細かく決めることで、もっと予見性が高いようにするほうがいいのかという点は論点となっている。だが細かく決めすぎるとイノベーションの妨げとなる。日本でも同様の状況にある。
また現在、「検索」という手段が生成AIによって大きく変わろうとしている。今までの検索エンジンは検索後の記事クリックを前提としていた。だが学習して結果を出力するなら、クリックする必要はないし、読みに行くためにサイトにサブスクする必要もない。従来型のリンク列挙型とは話が変わってくることから、メディアには影響が出るのではないかと考えられている。
ChatGPTに対する世界各国の個人情報保護当局の考え方は異なっている。イタリアではChatGPTは3月末に一時停止が命令されたが、4月末に解除された。EU全体では4月にEDPB(欧州データ保護会議)がChatGPT対策のタスクフォースを設置。ドイツはChatGPTを調査中だと4月末に報じられている。
個人情報の問題も指摘されている。指示段階でプロンプトに個人情報を入れると、個人情報の第3者提供となってしまうケースが多い。また学習した個人情報を出力してしまうことがあり得る。たとえばメールアドレスを出力してしまう事例や診療データが含まれる可能性がある。そのほか、センシティブな情報を出力する可能性もある。学習段階の問題もある。たとえば病歴や思想信条の問題を取得・学習して利用することには配慮が必要だ。
日本ではどうか。講演当日の6月2日、「OpenAIに対する注意喚起」が個人情報保護委員会から出された)。利用者本人や本人以外の個人情報について同意を得ることなく取得しないことを求め、収集する情報に要配慮個人情報が含まれないよう必要な取り組みを行なうことなどとされている。
イタリアでは学習データからのオプトアプト確保が厳しく求められている。また個人に関する誤った情報の訂正・削除を可能にすることなども求められている。クローリングによる個人情報収集の是非についても、SNSから大量の顔画像を収集して世界各国の捜査当局に提供しているClearview AIとの対比などが議論されているという。なおこの時はクローリング自体が違法とされた。
誤情報や偽情報などの有害情報については方はどのように対応できるのか。ある集団や個人に対して不当なアウトプットを出すようなバイアスをかけることは違法か合法かというと、違法とは言えない。しかしファクトチェックを含め、何かしらの対応は必要だ。現状ではプラットフォームに自主的にやってもらうなど、法以外の対応が重要になってきている。
では法は何もできないのか。EUでは2022年に「EUデジタルサービス法」が成立している。巨大プラットフォーマーは展開するサービスが与える社会への「システミック・リスク」を評価し、合理的な緩和措置を採り、外部監査を受ける義務があるとされている。生成AIに対しても同様の法的措置が必要か否かは個別論点となる。
EUは2021年時点では、AIシステムをリスクに応じて4段階に分けて論じていた。そのうち「ハイリスクAI」は教育や職業訓練、融資、法執行などに用いられるAIとされ、提供者や利用者には適切なデータガバナンスが求められるとされた。
ここに生成AIが登場し、突然注目を集めた。2023年5月の修正案では基盤モデルや生成AIに特化したカテゴリを設けることが提案された。以前の案は「こういう用途で使う人はこういう義務を果たせと」いう作りだった。一方基盤モデルはさまざまな用途に使われ、さまざまな人が使う。以前の立て付けでは合わなくなる。
そこで生成AIの位置付けを明確化し、基盤モデルというカテゴリを作って、従来とは別のレイヤーとしてモデル提供者に義務を提案している。具体的には、合理的に予見可能なリスク特定と緩和、データに関してバイアスが明らかな場合は回避しないといけない、エネルギー使用の削減、そして川下の利用者が規則を守るための情報提供といったものだ。
生成AIの多くは学習データを開示してない。元データの権利者は利用されているかどうかもわからない。だがそのライセンス料の支払い、概要の公表も義務付けることが提案されている。まだ途中段階だが、年内には整備される予定だ。日本がどのぐらい参照するかはこれからだという。グローバル市場を規制するEUのパワーのことを「ブリュッセル効果」というが、そのように参照軸にはなるだろうと生貝氏は語った。
法はリスクを取り払ったり保護するところに用いられるが、しかし「データをもっと活用せよ」と求めることもできる。データの活用促進も活発に進められている。特にヨーロッパでは各国政府が各種データをマシンリーダブルな状態で提供しなければならないといった法案も成立している。IoTデータや医療データ等は、ある程度強制的に使えるようにすることのほうが公共の利益に資するのではないかという考え方だ。
しかし、どのようなデータをどこまで誰に提供すべきなのかは難しい。たとえば医療・健康データや国立国会図書館のテキストデータは共有すべきか否か。日本でも議論が必要だ。
生貝氏は「ネットそのほかが登場したときにも新たなリスクや法的課題は登場してきたが、これまでも法は乗り越えてきた。法律面での国際的競争も続く。日本がどこに軸をおくべきか。この分野は法律・技術ともに重要」と語った。