ニュース

ChatGPT、実在人物の写真生成など画像生成機能強化

GPT-4oの画像生成の例。長文の手書きテキストも忠実にレンダリング可能だ

 OpenAIは25日(米国時間)、これまででもっとも強力と謳う画像生成AIの機能をGPT-4oに組み込んだと発表した。

 GPT-4oの画像生成機能では、テキストの正確なレンダリング、プロンプトに正確に従うことなどが可能なほか、4o特有のナレッジベースやチャットコンテキストを活用。アップロードされた画像を変換したり、視覚的なインスピレーションとして使用したりする点に優れるという。

 モデルは、オンライン画像とテキストの共分布に基づいてトレーニングを行ない、画像と言語や、画像同士がどのようにして関連しているのかを学習。積極的な事後トレーニングと組み合わせることで、視覚的に分かりやすく、有用かつ一貫性があり、コンテキストを認識した画像を生成できるようになったという。また、GPT-4oにネイティブに搭載されているため、自然な会話を通じて画像を改良でき、全体の一貫性が確保されるのも特徴。

 テキストのレンダリングもこれまでの画像生成AIが苦手としていたものが、OpenAIが挙げた作例では、長文の英語をホワイトボードに手書きで記述するシーンも自然に生成できている。

道路標識なども生成できる

 また、細部にまで注意をはらい、詳細なプロンプトに従うのも特徴で、ほかのシステムが5~8個のオブジェクトで苦労するのに対し、GPT-4oでは、たとえば整列されたアイコンのように最大10~20個の異なるオブジェクトを処理できるという。アップロードされた画像を分析して学習し、詳細をコンテキストにシームレスに統合して画像生成することも可能。

 このほか、さまざまな知識を利用した画像生成、多様な画像スタイルを反映した画像を使ったトレーニングによる説得力のある画像の作成と変換などが特徴としており、既存の写真をベースに用いて、著名人など実在人物を再現した画像も生成できる。

 同社はこのモデルの構築に際して強力な安全基準を設け、コンテンツの来歴と信頼性を担保するC2PAメタデータの付与を行なうほか、児童性的虐待素材や性的ディープフェイクといったコンテンツポリシーに違反する可能性のある画像生成リクエストは引き続きブロックしている。

 実在人物の画像が文脈に含まれる場合、作成できる画像の種類に関する制限も強化し、特にヌードや暴力描写については強力な保護策が講じられているという。

整列したオブジェクトの処理も可能
さまざまなカクテルの知識も持っているようだ