山田祥平のRe:config.sys

Webコンテンツは要約だけで十分どころか、そのほうが役にたつらしい

 最近は映画やドラマを数倍速で見る層が出現しているそうだが、もうWebは要約だけで十分という、コンテンツ提供側からみると、ちょっと寒い時代がやってきそなのが今のトレンドだ。

三役そろった生成AI

 MicrosoftがBingの新しい検索ページで生成AIのサービスを提供中だ。また、Googleも生成AI Bardのサービスをスタートしている。BingはWindows標準のEdgeでしか使えないが、BardはChromeでもBingでも使える。かと思えば、AmazonはスマートスピーカーEcho Popの発表と同時に、今後、Echoデバイスに生成AIによるAlexaを搭載していく将来を表明した

 知りたいことの答えを見つけるための方法論は、現代社会において多岐にわたるが、「ぐぐれ」に代表される検索ページでの検索が新しい当たり前になったのは、2000年になってからのことであり、つい四半世紀前の話だ。その「ぐぐれ」をぼくらは、ほぼ空気を吸うように繰り返してきた。

 そうでないと「ぐぐれかす」と呼ばれてしまうわけだが、GoogleアシスタントやAlexaの登場で、キーワード検索に加えて、音声によるAIとによる検索手法が登場した。ただ、それは、キーワード検索に代替するものとして機能する新しい未来とはお世辞にもいえないものだ。それでも、人々がコンピュータとの対話という行為の中で、何を尋ねたいかというデータを収集するにはもってこいだったかもしれない。

 そして今、生成AIの強烈なデビューによって、新たな次元が登場し、コンピュータに何かを対話形式で尋ねる方法論は、キーワード検索のような一般的に行為になることはほぼ確実になった。

嘘をいうことを認めさせエクスキューズするAI

 対話形式でコンピュータに尋ねることが新しい当たり前になるのは確実と書いたが、本当にそうだろうか。

 興味深いのは、Bardが入力させる質問に「ここにメッセージを入力してください」という言葉を使っていることだ。それに対して新しいBingは「何でも聞いてください」と質問をうながす。

 まだ、GUIが一般的でなかった時代、いわゆるコマンドラインに呪文のようなコマンドを入れ、オプションを指定し、そのコマンドをパイプでつないでコンピュータに仕事を依頼していた。これをプロンプトという。「うながす」という意味だが、今は、AIに何かを尋ねるためのセンテンスについてもプロンプトという言葉を使うようになったようだ。
 Bardはメッセージを受け付け、Bingは質問してくださいと言って、目の前のユーザーが知りたいことを知らせてくれるのを待つ。その前段階として、Bardでは、

「こんにちは、Bard です。創造力や生産性を高めるパートナーとしてあなたをサポートします。ただし、AI の機能には限界があり、常に正しい回答を提供できるとは限りません。みなさんからのフィードバックによって機能が改善されていきます」

と、また、Bingは

「一緒に学習しましょう。Bing は AI を利用しているため、驚きや間違いが起きる可能性があります。必ず事実を確認し、 フィードバックを共有 学習と改善を行うことができます」というミスの可能性を白状する」

 どちらもかなり控えめだ。そして、正しいとは限らないこと、間違いが起こる可能性を否定しない。だから、必ず事実を確認するようにいざなう。エクスキューズだ。Bingは事実らしいことを提示する場合は、その根拠となる参照先を提示するが、Bardはまだそういう仕様ではない。これについては将来的に改善されることになっているという。

検索エンジンとWebクロール、AIと学習

 もし、従来型の検索エンジンがWebをクロールできなかったら、今の時代はなかっただろう。サイトと検索エンジンはウィンウィンの関係にあって、サイトは検索エンジンに見つけてもらってうれしく、検索エンジンは多くのサイトの情報を手札としてもち、ユーザーのリクエストに応じて情報を提供することができて評価されてきた。

 ただ、近年は、少し検索エンジンの立場が強くなってしまっている。検索エンジンに見つけてもらわなければ、そして、検索結果一覧の上位に表示されなければ、そのコンテンツはこの世に存在しないのと同義とまで言われる始末だ。

 そして今は、SEOによって、サイトのコンテンツがエンジンにあわせる時代になりつつもある。それでいいのかなと思いつつも、各コンテンツはどんどん正規化されていく。まあ、早い話が金太郎飴だ。仮にその正規化を「~とは」化、「いかがでしたか」化と呼んでおこう。

 究極的にはすべてのサイトは箇条書きになったほうがいいかもしれないくらいの勢いだ。あるいは求められているのはテンプレート準拠か。余分な情報がないほうが検索エンジンが勘違いしにくいし、読む側も短時間で要点を理解できる。もしかしたら、そのほうが生成AIにとってもありがたい中間言語が良質とされるSEO対策が為されたコンテンツかもしれない。

 ちなみに、ここのところ、PC Watchの記事にはChatGPTを使った要約の機能が提供されている。記事中に「AIで記事を要約する(β)」というボタンがあり、それをタップすると長文記事の要約が短くまとめられて表示される。もちろん、

「この要約はChatGPTによって自動生成されたものであり、原文の完全性や正確性を保証するものではありません。この機能はベータ運用中です」

という注意書きがある。正しいとは限らないわけだ。試しに、先々週のコラムをこの機能を使って要約させてみたところ、「ドック、そのUSB Type-Cケーブル1本の絆」の本文は「できるようだ」と推測している部分が、要約では「できるそうだ」という伝聞になっていた。AIが学習したとしたら、このコンテンツの文章だけからだと思うのだが、どこでどうすれば、こうした誤りが出てくるのか、そして、それを回避するにはどうすればいいのかを、今、技術者たちは懸命に考えている。大事なことだ。それがわからないと、AIに欺されるかもしれないし、AIを欺すヤツが現れる可能性もある。

 それでも、何千字もの文章を頭から末尾まで読まないと分からなかったことが、300字前後でまとまっているなら、もうそれだけでいいんじゃないかとありがたく感じるユーザーがいてもおかしくない。最近は映画やドラマを数倍速で見る層が出現しているそうだが、もうWebは要約だけで十分というなら、ドラマも映画も小説もあらすじだけで十分か。そうじゃないだろうと信じたい。

AIに持ちつ持たれつ

 生成AIの学習については、知的財産としてのコンテンツをどう扱っていくかが議論されている最中で、これからどうなるかはまだわからない。そもそも、えらそうにこうして書いているコラムだって、自分がゼロから書いてはいるものの、その要約を抽出すれば、そこにあるのは、誰かがかつて訴求した内容を、書いている自分自身が咀嚼して、自分の言葉にしたものにすぎない。自分がゼロから考えたものなど皆無に等しい。

 それでいいのかどうか。AIが奪うもの、AIが与えてくれるものを切り分け、持ちつ持たれつの関係を享受しつつも、検索の未来、そしてコンテンツの未来のことをしっかりと考える必要がありそうだ。