特集

ChatGPT、Bingチャット検索、Bardはどう違う?開発経緯や回答を比較

ChatGPT。画面は有料版の「ChatGPT Plus」。モザイク部分は利用履歴

 生成(ジェネレーティブ)AIについては、毎日のように新しい話題が生まれている。

 中でも、「ChatGPT」に代表されるチャットをベースとしたAIサービスは、もはや生成AIの代名詞がChatGPTになってしまったような錯覚を受けるくらい、一般ニュースでも目にする単語になってきた。

 一方で、先日はGoogleがチャットAI「Bard」の日本語対応版を公開、Microsoftも、「Bing チャット検索(以下Bing)」をテスト中だ。

GoogleのBard。5月のGoogle I/O以降、日本語でも利用可能になった。
Microsoftの「Bingチャット検索」。モザイク部はChatGPTと同じく利用履歴

 では現状、これらのサービスはどう違うのか?

 改めて比較してみたい。

 ただし、本記事では「それぞれがどれだけ正確で賢いか」を詳細に検証することはしない。なぜなら、常に変化している状況であるし、与える文章による差も大きく、ランダム性も高いからだ。

 ある種の傾向は考察していくが、あくまで「傾向」のようなものとお考えいただきたい。

チャットAIを支える「大規模言語モデル」

 ChatGPTに代表される俗にいう「チャットAI」(対話型AI)は、「大規模言語モデルを使ったAIを使うためのユーザーインターフェイス」である。

 背後にはそれぞれ大規模言語モデル(LLM)があり、それを活用するためにチャットを使っているが、さらにチャットとLLMの間に、「どう答えを作り、返答するのか」という処理系がある。

 すなわち、チャットAIの性質を知るには、LLMの部分とUI+処理系をそれぞれ理解しておくべきなのだ。

 というわけで、まずLLMの違いから行こう。

 ChatGPTはその名の通り、OpenAIの「GPT」シリーズを使っている。GPTとは「Generative Pre-trained Transformer」の略。「Transformerで事前学習された生成型」と訳せばいいだろうか。

 LLMは大量の文章(コーパス)から学習を行なうが、そこで使われているのが「Transformer」というアーキテクチャ。だから名前に含まれている。

 Transformerは2017年に6月に発表された「Attention Is All You Need」という論文をもとに広まっていった。

 詳細な仕組みの解説は省くが、この論文は、翻訳タスクの効率についてのもの。文中の単語の意味を理解するため、重要性を考慮して注目すべき単語を見つけ出す機構である。結果として、「次にどこを注目すべきか」を推論していく。

 それまで使われていたRNN(Recurrent Neural Network)に対して速度/精度の両面で勝り、並列計算も容易な構造であることから高く評価された。

 Transformerを使ったLLM自体は別にOpenAIだけのものではない。LLMではいまや一般的な仕組みであり、後述するGoogleの「PaLM 2」を含め、ほとんどのLLMが、Transformerの派生版を利用している。

 Transformerの特質の中でも重要なのは「並列処理が容易」という点だ。結果として、並列計算用の巨大なシステムさえ用意できれば、これまでよりも大量の情報から学習した、巨大なLLMを作ることが可能になった。

 昨今のLLMを使った処理が「賢くなった」と感じるのは、まさに規模の問題。LLMの規模があるしきい値を超えると突如高い能力を示すようになったからであり、現在の進化のベースとなっている。

 なお、「Attention Is All You Need」論文の筆頭筆者であるAshish Vaswani氏は、この論文を書いた当時Googleに所属していた。2021年秋に同社を離れ、現在はAI関連スタートアップを立ち上げている。

 すなわち、Transformerを使ったLLMで、Googleは他社より有利な地位にいたわけだ。

 実際、Googleは2018年、Transformerを使った自然言語書モデル「BERT(Bidirectional Encoder Representations from Transformers)」を発表、2019年10月には英語向け検索からBERTを導入、長い自然文による検索精度アップに利用してきた。

 しかし、現在のトレンドであるチャットAIの世界を広げたのはOpenAIだ。2018年にGPT-1が、2019年にはGPT-2が発表され、2022年11月に公開されたChatGPTでは、2020年に開発したGPT-3.5がまず使われ、その後、さらに進化したGPT-4が併用される形になった。

 大規模化によって質的な変化を起こしたLLMを使い、「チャット」という分かりやすいインターフェイスでのサービスを「先に提供した」ことが、現在の状況を生んでいる。

 「Googleは遅れた」と言われるが、その本質はこのようなところからも見えてくる。

OpenAIとMicrosoft

 OpenAIは元々非営利団体だ。目的は、LLMを使って「人工汎用AI(Artificial Generative AI、GA I)」を作ることである。

 同社が現在の形に変わってきたのは、2019年に営利部門である「OpenAI LP」が設立され、Microsoftから10億ドルの出資を得てからである。2022年7月には、絵を描くAIである「DALL・E」を公開、11月に「ChatGPT」を公開した。

2022年にMicrosoftはOpenAIに出資。以降両社の関係はどんどん深くなっていく

 その後2023年1月には、Microsoftから、さらに100億ドルの出資をうけている。結果、Microsoftは営利部門・OpenAI LPの株式の49%を取得することになった。

 前出のように、GPTのようなTransformerベースのLLMは、運用と学習に巨大な並列演算システムを必要とする。現在、OpenAIのシステムはMicrosoftのクラウドインフラであるAzure上で動いており、資金・システムの両面で、OpenAIはMicrosoftに依存している。

 そして、MicrosoftがOpenAIから技術供給を受けて提供しているのが「Bingチャット検索」だ。そのほかにも、WindowsやMicrosoft 365との統合を進めたプロダクトが複数存在するが、今回はBingチャット検索に絞る。

 Bingチャット検索は、LLMとしてGPT-4を使っている。しかし、GPT-4=Bingチャット検索ではない。検索サービスとして使うことを前提に、独自の技術を組み合わせている。

 その技術が「Prometheus」だ。

 PrometheusはGPT-4と連動して動くもので、チャットの会話から検索キーワードを作り出し、ネット検索をした上でGPT-4に渡して、滑らかな文章の回答を作る。同時に、答えとなる文章の根拠となった情報が含まれるWebサイトを「索引」のような形で表示する。

Prometheusの構造。右下の「New Generation GPT」がGPT-4だ

 ChatGPTは「事前に学習した情報」をもとに回答するので、最新の情報に弱い。GPT-4の場合には2021年9月までの情報に限られる。ネット検索として使うにはこの点がマイナスだ。Microsoftは、LLMを検索サービスであるBingのテコ入れに使いたいと考えていたので、GPT-4そのままでは困るのだ。だからPrometheusを使って「検索サービス機能を持つコ・パイロット」としてサービスを作り上げたわけだ。

 なお詳しくは後述するが、現在はChatGPTも有料版の「ChatGPT Plus」でWeb検索機能を搭載するようになった。そこでは検索エンジンにBingを使い、MicrosoftがPrometheusで使った手法に似た技術によって、「ネット検索を含む情報」で回答することも可能になっている。

次々とLLMを変えていくGoogle

 では、GoogleのチャットAI「Bard」はどんな存在なのだろうか?

ChatGPT対抗としてテストが進む「Bard」

 前出のように、GoogleはTransformerベースのLLMを以前より開発していた。複数の用途のものを開発しており、その1つが「BERT」だった。

 そして、チャットAI向けにまず開発されたのが「LaMDA(Language Model for Dialogue Applications)」。2020年1月、開発初期段階にあることが発表されたが、2021年5月のGoogle I/Oで正式に発表された。

 初期のBardにはこのLaMDAが使われており、いまもドキュメントの中やBardの回答の一部に、LaMDAベースであった痕跡が残っている。

 BardはChatGPTの対抗馬として発表された色合いが強い。

 そのため、精度アップ/機能アップを目的に、2月の発表後も、矢継ぎ早に改良を行なっている。Bardはこの5月まで「限定的なテスト」扱いであり、英語にのみ対応していた。現在もテスト段階扱いであることに変わりはないが、すでに利用者を制限する段階ではない。

 テスト中、4月にLLMがLaMDAから「PaLM」に変わり、さらに現在は「PaLM 2」に変更されたとされている。

5月のGoogle I/O 2023で、Bardで使うLLMが「PaLM 2」に変更されたことが公開に

 PaLMはGoogleが「Pathway」と呼ぶ技術を使って自社のインフラを使い、学習の最適化を行なったのが特徴。さらに、PaLM 2では英語以外の言語を多く学習し、従来のLLMに比べ多言語対応が進んだ、とされている。

 結果として、GoogleはBardを40以上の言語に対応させた。日本語と韓国語に対応したのは、ある種の「先行公開」のようなところがある。日本語/韓国語への対応を先行した理由について、ピチャイCEOは次のように説明している。

 「理由の1つは、それらが英語とは大きく異なった言語である、ということ。これらの言語に取り組むことで、私たちが(言語について)考えなければならない、幅広い領域を知ることができ、ほかの言語への対応が容易になる」。

 なお、Googleはさらに「Gemini(ジェミナイ)」というAIの開発を進めている。PaLM 2は将来的に、Geminiに置き換えられていくという。

LLMの種類や使い方で「回答速度」は異なる

 さて、前置きが長くなったようだが、「チャットAIと呼ばれるもの」がどのようにここまで進んできたのか、ということがお分かりいただけたかと思う。

 要は「LLMの違いはサービスの違いになる」、「さらにLLMの上にどのようなUIを実装するかで、使い勝手は変わる」ということだ。

 以降、各サービスで同じ質問をして、傾向を解説していく。回答には若干のランダム性があり、試す時期によっても回答は変わる。そのため、違いは「1つの例」とお考えいただきたい。ただし、傾向は分かるのではないかと考える。

 たとえば、同じChatGPTでもGPT-3.5とGPT-4を使った時では、回答も違うし回答が終わるまでにかかる時間も違う。

 「日本の高い山を1番目から5番目まで、高い順に高さも表記した上で並べてください。」と質問した場合、GPT-3.5では「約11秒」で回答が終了するが、GPT-4では「約31秒」かかった。

 ただ、この「返答」についても、各サービスの改良が続くと同時に、ちょっと多様化が広がっている。

 ChatGPTは比較的シンプルで、LLMを2つ切り替えつつ使える。速度が大幅に違うこともあるし、改善はGPT-4の方に行なわれている、という理由もあるのだろう。

GPT-3.5での解答例。回答までに11秒かかった
GPT-4での解答例。回答までに31秒かかった

 ChatGPTの有料版「ChatGPT Plus」でGPT-4を使った場合、Web検索をした上で回答を作るWeb Browsingモデルが使える。前出のように、仕組みはPrometheusに似ている。画面を見ると、まさに人間がネット検索して情報を読み、答えをまとめているような流れであることが分かる。ただ、その分時間は余計に必要で「約78秒」もかかった。

GPT-4を使い「Web Browsingモデル」を使った場合。人がネット検索して情報をまとめるように処理をする。78秒かかった

 Bingチャット検索は、3つの「会話スタイル」がある。「創造的に」、「バランスよく」、「厳密に」の3つで、以下のように回答の内容も変わる。「厳密に」では「約48秒」、「バランスよく」と「創造的に」では「約28秒」かかっている。

「バランスよく」での回答。28秒かかった
「厳密に」での回答。こちらの回答には48秒かかった
「創造的に」での回答。28秒かかった

 Bardは他社に比べ速く、「約5秒」で回答が返ってきた。

Bardは回答が一番速く、5秒で回答した

LLMと「スタイル」で回答内容が変化

 では、回答の「スタイル」に注目してみよう。

 ここでは「木星の写真を撮るとき、どのような機材を使い、どのような作業をすればいいかを、順を追って解説してください。」という質問を使ってみる。

 ChatGPTは、GPT-3.5を使った時も、GPT-4を使った時もそこまで変化はない。ただ、GPT-4の方が表現は豊かになっている。表などが出てくる率も、GPT-4の時の方が多い。

GPT-3.5での解答例
GPT-4での解答例。こちらの方が少しリッチ

 なお、GPT-3.5の時とGPT-4の時では、回答のアイコンの色が違う。SNSなどに回答がシェアされてきた時には、ここの色で判断するといいだろう。

 前出の通り、Bingチャット検索は3つの設定があり、それぞれの表記はかなり異なってくる。場合によっては答え自体が違っていることも珍しくない。ChatGPTでGPT-3.5か4か、でも回答は変わるのだが、同じBingチャット検索でも設定で変わるので、その点は気をつけた方がいい。

 デフォルトである「バランスよく」は、回答がかなりシンプルなものになりやすい。一方で「創造的に」にすると回答が長くなり、多少不正確な内容が混じりやすくなる印象を持っている。

上から「バランスよく」「厳密に」「創造的に」にでの回答。「バランスよく」がかなりシンプルになることが分かる

 シンプルな回答になりやすいのは、ほかの2つと異なり、Bingチャット検索が「ネット検索のためのもの」であることを強く意識しているためだろう。公開された当初はもっと回答が長かった。

 検索サービスであるため、各回答には「索引」のように、情報ソースとなったリンクが示されている。チャットAIからの回答で満足してしまうのでなくその先も読んでほしい、というアピールではないか……とも思う。

 Bardについても、Bingチャット検索と同じように「3つの選択肢」がある。ただ、Bardには最初から3つの回答が用意されていて、質問し直すことなく、その場で好みの表記のものを選べる。

Bardは一度に3つの回答例を出す。表記が多少異なる

 応答スピードの速さも考えると、OpenAI系である2社とはかなり異なる考え方だ。

 Bardの場合、「木星の撮り方」ではあまり回答に変化がなかったが、「日本の高い山」での回答にはかなりバリエーションがあった。Bingチャット検索ほど回答の性質が大きく異なるわけではなく、表記のバリエーションというイメージが強い。

LLMは意外と「計算」と「論理」に弱い

 最後に「正確性」の話をしよう。

 冒頭でも述べたように、チャットAIとLLMは常に進化しているし、質問によって向き・不向きが変わる。「どれが賢い」といったことを簡単に結論づけられるものではない。

 ただここでは1つの目安として、「論理的な問い」への回答を示しておきたいと思う。日常的に行なう、ちょっとした計算問題を出してみる。

 「アメリカ太平洋時間で6月5日午前10時は、日本時間で何日の何時でしょうか?」

 答えは6月6日の午前2時。16時間の時差を計算するだけだが、どうなるかチェックしてみよう。

 ChatGPTは意外なことに、GPT-3.5が正解。GPT-4はアメリカ冬時間で時差を出してしまったが、夏時間の存在を示唆して「確認を」と表記してきた。

GPT-3.5の回答。シンプルで間違いはない
GPT-4の回答。冬時間で回答しているが、「確認を」と促している

 Bingチャット検索は、3バリエーションともに正解だ。「創造的に」だと、アメリカ夏時間/冬時間の違いも指摘してきた。

上から「バランスよく」「厳密に」「創造的に」の回答

 だが、Bardは不正解。どのバリエーションでも「6月6日午後7時」と答えてしまった。

Bardはなぜか、「6月6日午後7時」という間違った答えを出した

 Bardは問題がある……と結論づければ簡単な話に見えるが、実は、どのチャットAIも「ちょっとだけ考える必要がある計算問題」に意外なほど弱い。

 たとえば「消費税を考慮してドル円換算を」というような問題を出したとき、ChatGPTが消費税率を間違えることもあったし、Bingチャット検索は「創造的に」を使った際、消費税に対してさらに地方消費税分を足してしまい、税率を高く計算してしまうこともあった。

ドル・円換算して消費税も加味して計算させると、GPT-3.5は税率を間違えた
Bingチャット検索の「創造的に」では、なぜか地方消費税分を2回加えてしまった。しかもその後の計算も間違えている

 AIというと論理的思考が得意、という印象を持つかもしれないが、LLMは必ずしもそうではない。どのLLMであってもミスを犯しやすい。ただ現状、GPTベースの2社に対し、PaLM 2ベースのBardは計算や論理思考がより苦手、という傾向はあるように思う。

 こうした違いを頭に入れた上で、それぞれのサービスを使ってみていただきたい。あえて3つのAIに同じ質問をして、それぞれの回答を自分で選択して組み合わせる……というやり方もいいだろう。