ニュース

ChatGPTも部品の1つ、組み合わせて価値を創造すべき。AI SaaSのPKSHAが勉強会を実施

森山和道

2023年5月24日 06:35

　株式会社PKSHA Technologyは2023年5月23日、「開発者視点から見る生成系AI 社会実装における挑戦とポテンシャル」と題したオンライン勉強会を開催し、大規模言語モデル、生成AIの仕組みの解説、国内外の状況や諸課題、連携のためのポイントなどについて解説した。

　東大・松尾研究室発スタートアップの第1号であるPKSHA(パークシャ)は、自然言語や画像認識などAIに特化したソリューションを作っている企業。2,000社以上の企業と実装を進め、近年は「AI SaaS」事業を進めている。勉強会は株式会社PKSHA Workplace Product Managerの花塚匠氏が基本的に解説し、必要に応じて株式会社PKSHA Technology エンジニアリングマネジャーの中島真也氏が技術補足する形式で行われた。

PKSHAは165のアロゴリズムを開発し、2,300以上の会社のオペレーションに導入しているという

大規模言語モデルの概要

「ChatGPT」は大規模言語モデル(Large Language Model、LLM)の一つ

　OpenAIの「ChatGPT」に代表される大規模言語モデル(Large Language Model、LLM)は、プロンプトを入力することで質問応答、文章の生成、要約や翻訳、プログラミングコードの作成などを行うことができる。「オセロゲームをpython で作ってください」と一行書くだけで実際に動作するコードを出力したり、イベントレポートの構成やその要約を簡単に作ることができるなどさまざまなタスクを実行できる。

　大規模言語モデルは一言でいうと、インプットされた文章に続くテキストを確率的に予測するAIだ。学習には大量の言語データが必要で、「GPT-3」の学習データにはWikipediaやGoogleなどのデータが用いられている。

言語モデルとは入力文章の次の単語を予測するAI

　LLMの精度は計算能力、データセット、パラメータ数の3つに関係している。この3つを増やすと比例して精度がどんどん上がることが分かっている。そのため各社が、より大きなモデルを開発してきた。この「スケーリング則」は以前から知られていたが、「GPT-3」になって、「スケーリング則」を超えて、さらに飛躍的に性能が向上することが分かってきた。一方、大規模化することで高コストになってしまうことから、モデルの軽量化や、同サイズでもより高性能なモデルを目指す研究が進められている。

計算能力、データセット、パラメータ数の3つを増やすと比例して性能が向上

　現時点では最新のモデルである「GPT-4」ではテキストだけではなく画像の入出力も可能になり、マルチモーダル化している。そのほかにもテックジャイアントからMicrosoftとNVIDIAの「MT-NLG」、Metaの「LLaMA」、Googleの「PaLM」などさまざまなLLMが発表・公開されている。それぞれ特性が違い、PKSHAではモデルの選定から関与することで実装しやすくしているという。なかでもOpenAIのGPTはAPI化されているので使いやすいとのこと。

「GPT-4」はマルチモーダル化

複数のテックジャイアントから言語モデルが発表されている

　一方Metaの「LLaMA」は研究者向けなので商用利用ができない。またモデルの中身にもアクセスされ研究されていることから、モデルの軽量化を促進する効果を生み、デスクトップでも動くモデルなどもここから誕生している。オープンソースかクローズドかはそれぞれの戦略次第で、用途によって選択する必要がある。

　ChatGPTにはデメリットもある。間違いや最新の情報がないところ、ドメイン知識に弱い点だ。特に回答の正否を調べる必要がある点は注意が必要だ。

事実と異なる出力を出す可能性には注意

大規模言語モデル／生成AIは適切に組み合わせて使うことが重要

日本国内でも言語モデルの開発が進む

　最近になって日本国内でも日本語特化したLLMの開発が公開・発表されている。サイバーエージェントやriina、自動EV開発のチューリングなどだ。大規模言語モデルの自社開発は、特定ニーズへの対応、データセキュリティ、競争優位性、長期のコスト効率向上といったメリットがある。

　大規模言語モデルの社会実装を加速するために、PKSHAでは複数のLLMと既存のPKSHAのアルゴリズムを組み合わせる「PKSHA LLMS」を2023年3月にリリースしている。たくさんのアルゴリズムモジュールを必要に合わせてブロックのように組み合わせ、知見が蓄積されているプロンプト・エンジニアリングを使って、スピード感をもって性能が引き出されるよう実装する。また、文書マニュアルを組み合わせることで商用水準で使うために事実性を向上させる技術もある。基本的に「LLMが苦手な部分を既存の技術で補う」考え方だ。

　「PKSHA LLMS」からは3つの例が紹介された。「AIヘルプデスク for Microsoft Teams」は社内の問い合わせログをTeamsで集め、その問い合わせ対話の中から質問と回答を抜き出して、FAQを自動で制作する。

PKSHA AIヘルプデスク for Microsoft Teams

　「Knowledge Maker」ではメールやチャット、マニュアル文書データからQ&Aを抽出する機能を実験している。処理時間や事実を判定する機構の必要性など、いくつか懸念点、社会実装の留意点も見つかっているという。

PKSHA Knowledge Maker

　「Chatbot」は社内問い合わせの自動化を支援するものだが、LLMを活用することで文章表現の幅を広げる実験を行なっている。文章には複数の言い方がある。LLMに言い換え表現を考えてもらうのだ。たとえば「パスワードを忘れた」という文章をさまざまな表現で言い換える。

PKSHA Chatbot

　ただ、既存のモジュールとLLMを使った場合の精度を比較すると、既存モジュールのほうが精度が高い傾向があり、「シンプルにChatGPTを使うのではなく、適切なアプローチを使うことが必要ということが示唆された」という。

LLMハッカソンでプロトタイプを作成、課題を抽出

株式会社PKSHA Workplace Product Manager 花塚匠氏

　PKSHAではグループ全体でLLMのハッカソンを実施。2週間かけて20個近くのプロダクトを作成した。その結果、LLMもアルゴリズムモジュールの1つで、それを単体で使うのではなく、ユースケースに合わせて組み合わせる部品として使うことが有効だと分かったという。花塚氏は「LLMの得意不得意を適切に見極めて、複数モジュールを組み合わせて最適な体験を提供するべきだ」と述べた。

社内でLLMハッカソンを実施

　また、自然と精度を上げるためのデータ蓄積フィードバックループや、ユーザーのストレスなく信頼性を構築できるUXも重要だという。

　つまり、GPTは要素技術、そのままでも十分効果は発揮できるものの、商用には遠い。社会実装のためには検討すべきアプローチや課題が存在する。精度、コスト、シームレスなユーザー体験のためのレスポンス、セキュリティ、そして既存モジュールと組み合わせたUX設計が重要だ。

GPTは要素技術の1つ

　生成AIはLLMだけではない。音声認識のWhisper、画像生成のMidjourneyなどだ。それらも活用した総合的な体験の構築が重要だ。プロンプトをChatGPTにに作らせて、Midjourneyに絵を描かせるといった使い方も可能だ。花塚氏は実際に生成した画像を示し「AIと一緒に仕事をこなしていく世界は来る。複数モデルを組み合わせることが重要だ」と述べた。

ほかのさまざまな生成AIとLLMを組み合わせることで、さらに効果を発揮可能

LLMはシステム全体の1パーツとして使うべき

LLMの得意部分やコスト、特性を見極めてトータルUXを設計して活用するべき

　現段階でまとめると「LLMは得意不得意がはっきりしている。既存モジュールと組み合わせることが重要」だという。ビジネスで活用するには、LLMの得意分野を見極め、「体験の中心」というよりはシステム全体の１パーツとして使うべきだ。

　また使う必要のないところには使わないことも重要で、使うべきところを見極めなければならない。速度や精度、コストなども考えて、最適なシステムを開発すべきだという。そしてLLMの出力の特性を知ること、人が介入して確認するしくみも検討すべきであり、最適なUXを検討することが必要だと語った。

社会実装における挑戦とポテンシャル

LLM実装には技術、利用環境、UXのアプローチによる検討が必要

　ChatGPTができることは多いが、使い方次第であり、商用には一工夫が必要だ。精度、コスト、速度などの課題もある。PKSHAではキーとなりえる3つの観点が必要だと考えているという。

　まず技術的観点では、総合的にAIを理解してモデルを選び、学習の仕方も考えなければならない。大規模言語モデルをシンプルに採用するのか、タスク最適なAIアーキテクチャを選択するのか。特定タスクに限定することでコストを下げたり出力を制御することもできる。

　実際に日本語に特化したPKSHAのモデルはOpenAI Embeddingと比較すると性能が高く、コストも低いという。どちらのほうが最終的なコストが優れるのかを判断して、モデル、技術アーキテクチャを選択する必要がある。

特定モデルを使ったほうが安く高速、高精度になることも

　2番目は「利用環境アプローチ」だ。業務最適に合わせる仕組みも重要だ。AIの使い方、使う環境も重要だというわけだ。セキュリティには得意に配慮する必要がある。ChatGPTに個人情報や機密情報を入力してしまったり、知らずに著作権を侵害する可能性がないよう気をつけなければならない。

セキュリティリスクには配慮が必要

　入力した情報が何に使われるのかも考える必要がある。ChatGPTに入力したデータはAPI経由ならばら学習されないが、Web経由で使うと学習される可能性がある。個人情報が学習されてしまうかもしれない。設定で排除することも可能だが、従業員が中身を知らずに使ってしまうところを制限する機構も必要だ。PKSHAではMicrosoft Azureの「Azure OpenAI Service」を活用することで、従業員の使い方や入力制限は可能だとしている。

　3つ目は「UXアプローチ」だ。AIと人が対話することで共創する。実際のユースケースに沿っており、信頼感の醸成ができないとワークフローにはまらない。AIの出力を人が確認や訂正する機構が必要だ。PKSAHでは人をループのなかに入れる「ヒューマン・イン・ザ・ループ」を提案している。人が訂正したデータを使ってモデルが学習する。人の機構によってモデルが進化していくUXだ。また、レスポンス速度も業務に使うには重要だ。実際にビジネスで使うには、AIの特性を活かした上で活用法を考える必要がある。

実際のワークフローに合い、人をループに入れたUXが重要

　PKSAHの「AI Helpdesk for MS Teams」は社内の問い合わせをTeams上に集約。チャットボットが解決しなかった場合に情報システム部門などに問い合わせが回る。そのコミュニケーションログがまたFAQとなって、チャットボットがより賢くなる仕組みだ。LLMを使うことで、より賢くできるという。

　PKSHAでは「AI-Powered Future Work」を掲げ、AIが人の仕事を奪うのではなく、あくまで一緒に働くことで人の能力を拡張する未来のワークスタイルを提案し、「PKSHA Workplace」を提案している。