OpenAI では、画像生成が言語モデルの主要な機能であるべきだと長い間信じてきました。そのため、これまでで最も高度な画像ジェネレーターを GPT-4o に組み込みました。その結果、美しいだけでなく便利な画像生成が実現しました。
便利な画像生成
最初の洞窟壁画から現代のインフォグラフィックスまで、人間は視覚的な画像を使って、装飾だけでなく、コミュニケーション、説得、分析を行ってきました。今日の生成モデルは、シュールで息をのむようなシーンを思い起こさせることができますが、人々が情報を共有したり作成したりするために使用する主力の画像には苦労しています。ロゴから図まで、画像は、共通の言語や経験を示すシンボルで補強されると、正確な意味を伝えることができます。
GPT‑4o の画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、4o 固有の知識ベースとチャット コンテキストを活用することに優れています。これには、アップロードされた画像を変換したり、それらを視覚的なインスピレーションとして使用したりすることが含まれます。これらの機能により、思い描いた通りの画像を簡単に作成できるため、ビジュアルを通じてより効果的にコミュニケーションできるようになり、画像生成を精度とパワーを備えた実用的なツールへと進化させます。
機能の向上
オンライン画像とテキストの共分布に基づいてモデルをトレーニングし、画像が言語とどのように関係しているかだけでなく、画像同士がどのように関係しているかを学習しました。積極的な後トレーニングと組み合わせることで、結果として得られたモデルは驚くほど視覚的に流暢になり、有用で一貫性があり、コンテキストを認識した画像を生成できます。
テキスト レンダリング
1 枚の絵は 1,000 語に値しますが、適切な場所にいくつかの単語を生成することで、画像の意味を高めることができます。4o は正確なシンボルと画像を融合できるため、画像生成が視覚的なコミュニケーションのツールになります。
マルチターン生成
画像生成は GPT-4o にネイティブに組み込まれているため、自然な会話を通じて画像を改良できます。GPT-4o はチャット コンテキストで画像とテキストを構築できるため、一貫性が保たれます。たとえば、ビデオ ゲームのキャラクターをデザインする場合、改良や実験を繰り返しても、キャラクターの外観は複数の反復にわたって一貫性を保ちます。
指示に従う
GPT-4o の画像生成は、細部に注意を払って詳細なプロンプトに従います。他のシステムでは 5 ~ 8 個のオブジェクトを処理するのに苦労しますが、GPT-4o は最大 10 ~ 20 個の異なるオブジェクトを処理できます。オブジェクトをその特性や関係に密接に結び付けると、より適切に制御できます。
コンテキスト内学習
GPT‑4o は、ユーザーがアップロードした画像を分析して学習し、その詳細をコンテキストにシームレスに統合して画像生成に役立てることができます。
世界の知識
ネイティブ画像生成により、4o はテキストと画像間の知識をリンクできるようになり、よりスマートで効率的なモデルが実現します。
フォトリアリズムとスタイル
さまざまな画像スタイルを反映した画像でトレーニングすることで、モデルは説得力のある画像を作成または変換できるようになります。
制限事項
当社のモデルは完璧ではありません。現時点では複数の制限事項があることを認識しており、最初のリリース後にモデルの改善を通じてそれらの制限事項に対処する予定です。
安全性
モデル仕様に沿って、ゲーム開発、歴史探訪、教育などの価値あるユースケースをサポートし、強力な安全基準を維持することで、創造の自由を最大限に高めることを目指しています。同時に、これらの基準に違反するリクエストをブロックすることもこれまで以上に重要です。以下は、安全で実用性の高いコンテンツを実現し、ユーザーの幅広い創造的表現をサポートするために取り組んでいる追加のリスク領域の評価です。
C2PA による来歴と内部可逆検索
生成されたすべての画像には C2PA メタデータが付属しており、画像が GPT-4o から来ていることを識別して透明性を提供します。また、世代の技術的属性を使用してコンテンツがモデルから来ているかどうかを確認するのに役立つ内部検索ツールも構築しました。
悪いものをブロック
児童性的虐待資料や性的ディープフェイクなど、コンテンツ ポリシーに違反する可能性のある生成された画像のリクエストは引き続きブロックしています。実際の人物の画像がコンテキスト内にある場合は、ヌードや暴力的な描写に関する保護策を特に強化し、作成できる画像の種類に関する制限を強化しています。あらゆるローンチと同様に、安全性は決して終わることはなく、むしろ継続的な投資領域です。このモデルの実際の使用についてさらに学ぶにつれて、それに応じてポリシーを調整します。
当社のアプローチの詳細については、GPT-4o システム カードの画像生成補遺をご覧ください。
推論を使用して安全性を強化する
当社の審議的調整作業と同様に、人間が記述した解釈可能な安全性仕様から直接機能するように推論 LLM をトレーニングしました。開発中にこの推論 LLM を使用して、ポリシーの曖昧さを特定して対処しました。当社のマルチモーダルの進歩と ChatGPT および Sora 用に開発された既存の安全性技術と組み合わせることで、入力テキストと出力画像の両方をポリシーに照らして調整できます。
アクセスと可用性
4o 画像生成は、ChatGPT のデフォルトの画像生成器として、本日より Plus、Pro、Team、および Free ユーザー向けに展開され、Enterprise および Edu でも間もなく利用可能になります。また、Sora でも使用できます。DALL·E に特別な思い入れがある方は、専用の DALL·E GPT を通じて引き続きアクセスできます。
開発者はまもなく API 経由で GPT-4o を使用して画像を生成できるようになり、数週間以内にアクセスできるようになります。
画像の作成とカスタマイズは、GPT-4o を使用してチャットするのと同じくらい簡単です。アスペクト比、16 進コードを使用した正確な色、透明な背景など、必要な情報を説明するだけです。このモデルではより詳細な画像が作成されるため、画像のレンダリングには長い時間がかかり、多くの場合、最大 1 分かかります。
https://openai.com/index/introducing-4o-image-generation/