ニュース

Microsoft、ChatGPTによる自然言語でロボットの制御に成功

AirSimでのChatGPT統合

 Microsoftは2月20日(現地時間)、ChatGPTによる自然言語を介して、さまざまなロボットの制御を行なった実験の結果を報告した。

 現在のロボティクスは、エンジニアや技術者がタスクの要件をコードに変換するところから始まっているが、このプロセスにおいて低レベルのコーディングが必要となるため、時間と費用がかかり、なおかつ非効率的だという。ユーザーがChatGPTを利用してロボットに対して自然言語で要請を出し、そのコードをChatGPTがコーディングするようになれば、これらの問題は解消する。

 そこでMicrosoftはまず、高レベルのロボットAPIまたは関数ライブラリを定義。特定のロボット固有の制御スタックまたは認識ライブラリから、既存の低レベルの実装にマッピング。そしてChatGPTがその動作について推論できるよう、高レベルAPIに分かりやすいAPIの名前を使用した。

 次にChatGPTのテキストプロンプトを作成。タスクの目標を説明すると同時に、どの機能が利用可能であるかを明示。また、制約情報や、ChatGPTが回答を形成する方法を含めた。

ロボティクスにおけるChatGPTの利用
設計原則

 その後、ユーザーは直接コードを検査、もしくはシミュレータを利用してChatGPTの出力結果を確認。必要であれば、自然言語を用いてChatGPTにフィードバックを行ない、安全性と品質を確保。問題なければロボットにデプロイできるという。

ChatGPTによるロボティクス

 実験ではドローンに対してあいまいな指示を行なうだけで、ジグザグに飛行して棚にあるものを下から上まで順に撮影するプログラムや、AirSIM(シミュレータ)を用いて高所にドローンを飛ばして点検を行なうプログラム、色がついたブロックでMicrosoftのロゴを作るプログラムなどの作成に成功した。

実際のドローンを用いた実験
高所点検作業のシミュレーション
色付きブロックでMicrosoftのロゴを描画

 MicrosoftではChatGPTにおけるロボティクス制御に関するリソースを共有できるオープンソースプラットフォーム「PromptCraft」を展開するほか、複数のロボティクスシミュレータとインターフェイスを含めていきたいとし、まずはChatGPTを統合したAirSIM環境をリリースするとした。

 なお、ChatGPTからの出力の実用までは、慎重な分析なしに直接ロボットに展開することを推奨しないとしており、アルゴリズムを慎重に評価し、安全対策を講じるためにシミュレーションを利用するよう呼びかけている。