OpenAI는 오랫동안 이미지 생성이 언어 모델의 주요 기능이라고 믿어왔습니다. 그래서 저희는 지금까지 GPT-4o에 가장 진보된 이미지 생성기를 구축했습니다. 그 결과, 아름다울 뿐만 아니라 유용한 이미지 생성이 탄생했습니다.
유용한 이미지 생성
인류는 최초의 동굴 벽화부터 현대 인포그래픽까지 시각적 이미지를 사용하여 단순히 꾸미기만 하는 것이 아니라 소통하고 설득하며 분석해 왔습니다. 오늘날의 생성 모델은 초현실적이고 숨막히는 장면을 연출할 수 있지만, 사람들이 정보를 공유하고 생성하는 데 사용하는 워크호스 이미지에 어려움을 겪을 수 있습니다. 로고부터 다이어그램에 이르기까지 이미지는 공유된 언어와 경험을 나타내는 기호로 보강하면 정확한 의미를 전달할 수 있습니다.
GPT-4o 이미지 생성은 텍스트를 정확하게 렌더링하고, 프롬프트를 정확하게 따르며, 업로드된 이미지를 변환하거나 시각적 영감으로 사용하는 등 4o의 고유한 지식 기반과 채팅 컨텍스트를 활용하는 데 탁월합니다. 이러한 기능을 통해 원하는 이미지를 더 쉽게 만들 수 있으며, 시각적으로 보다 효과적으로 소통할 수 있으며, 이미지 생성을 정밀하고 강력한 실용적인 도구로 발전시킬 수 있습니다.
향상된 기능
우리는 온라인 이미지와 텍스트의 공동 배포에 대해 모델을 훈련시켰으며, 이미지가 언어와 어떻게 관련되는지뿐만 아니라 서로 어떻게 관련되는지도 배웠습니다. 공격적인 사후 훈련과 결합된 이 모델은 유용하고 일관되며 맥락을 인식하는 이미지를 생성할 수 있는 놀라운 시각적 유창성을 가지고 있습니다.
텍스트 렌더링
사진은 천 마디 말의 가치가 있지만, 때로는 올바른 위치에 몇 마디 단어를 생성하면 이미지의 의미를 높일 수 있습니다. 4o는 정확한 기호와 이미지를 혼합하는 능력을 통해 이미지 생성을 시각적 커뮤니케이션 도구로 전환합니다.
다중 턴 생성
이제 이미지 생성이 GPT-4o의 네이티브가 되었기 때문에 자연스러운 대화를 통해 이미지를 정제할 수 있습니다. GPT-4o는 채팅 컨텍스트에서 이미지와 텍스트를 기반으로 구축할 수 있어 일관성을 보장합니다. 예를 들어 비디오 게임 캐릭터를 디자인하는 경우, 캐릭터를 정제하고 실험하는 동안 여러 번의 반복에도 일관된 모습을 유지할 수 있습니다.
지침 준수
GPT-4o의 이미지 생성은 세부 사항에 주의를 기울여 세부적인 프롬프트를 따릅니다. 다른 시스템은 약 5-8개의 객체를 처리하는 데 어려움을 겪는 반면, GPT-4o는 최대 10-20개의 다양한 객체를 처리할 수 있습니다. 객체의 특성과 관계에 대한 더 긴밀한 바인딩을 통해 더 나은 제어가 가능합니다.
문맥 학습
GPT-4o는 사용자가 업로드한 이미지를 분석하고 학습할 수 있으며, 사용자의 세부 정보를 컨텍스트에 원활하게 통합하여 이미지 생성에 도움을 줍니다.
세계 지식
네이티브 이미지 생성을 통해 4o는 텍스트와 이미지 간의 지식을 연결할 수 있으며, 이를 통해 더 스마트하고 효율적으로 느껴지는 모델을 만들 수 있습니다.
포토리얼리즘과 스타일
다양한 이미지 스타일을 반영하는 이미지에 대한 훈련을 통해 모델은 이미지를 설득력 있게 만들거나 변환할 수 있습니다.
한계
우리 모델은 완벽하지 않습니다. 현재로서는 초기 출시 후 모델 개선을 통해 해결해야 할 여러 가지 한계를 알고 있습니다.
안전
모델 사양에 따라 게임 개발, 역사 탐구, 교육과 같은 귀중한 사용 사례를 지원하면서 강력한 안전 기준을 유지함으로써 창의적 자유를 극대화하는 것을 목표로 합니다. 동시에 이러한 기준을 위반하는 요청을 차단하는 것도 그 어느 때보다 중요합니다. 다음은 안전하고 활용도가 높은 콘텐츠를 제공하고 사용자의 폭넓은 창의적 표현을 지원하기 위해 노력하고 있는 추가 위험 영역에 대한 평가입니다.
C2PA 및 내부 가역 검색을 통한 출처 확인
생성된 모든 이미지에는 투명성을 제공하기 위해 이미지를 GPT-4o에서 가져온 것으로 식별하는 C2PA 메타데이터가 포함되어 있습니다. 또한 세대별 기술 속성을 사용하여 콘텐츠가 모델에서 나온 것인지 확인하는 데 도움이 되는 내부 검색 도구도 구축했습니다.
나쁜 것들을 차단하기
아동 성학대 자료 및 성적 딥페이크와 같은 콘텐츠 정책을 위반할 수 있는 생성된 이미지에 대한 요청을 계속 차단하고 있습니다. 실제 인물의 이미지가 맥락에 있을 때, 특히 누드 및 그래픽 폭력에 대한 강력한 보호 장치를 통해 어떤 종류의 이미지를 만들 수 있는지에 대한 제한을 강화했습니다. 출시와 마찬가지로 안전은 결코 끝나지 않으며 오히려 지속적인 투자 분야입니다. 이 모델의 실제 사용에 대해 자세히 알아보면서 정책을 조정할 예정입니다.
우리의 접근 방식에 대한 자세한 내용은 GPT-4o 시스템 카드의 이미지 생성 부록을 참조하세요.
추론을 사용하여 안전을 강화하기
우리의 신중한 정렬 작업과 유사하게, 우리는 인간이 작성하고 해석 가능한 안전 사양에서 직접 작동하도록 추론 LLM을 훈련시켰습니다. 우리는 개발 중에 이 추론 LLM을 사용하여 정책의 모호성을 식별하고 해결하는 데 도움을 주었습니다. ChatGPT와 소라를 위해 개발된 다중 모드 발전과 기존의 안전 기술과 함께, 이를 통해 정책에 반하는 입력 텍스트와 출력 이미지를 모두 조정할 수 있습니다.
액세스 및 가용성
4o 이미지 생성은 오늘부터 ChatGPT의 기본 이미지 생성기인 Plus, Pro, Team, Free 사용자에게 출시되며, 곧 Enterprise와 Edu에 액세스할 수 있습니다. 소라에서도 사용할 수 있습니다. DALL·E에 특별한 위치를 차지하고 계신 분들은 전용 DALL·E GPT를 통해 액세스하실 수 있습니다.
개발자들은 곧 API를 통해 GPT-4o로 이미지를 생성할 수 있게 되며, 앞으로 몇 주 안에 액세스 권한이 제공될 예정입니다.
GPT-4o를 사용하여 이미지를 만들고 사용자 지정하는 것은 채팅만큼이나 간단합니다. 화면 비율, 헥스 코드를 사용한 정확한 색상, 투명한 배경 등 필요한 것을 설명하기만 하면 됩니다. 이 모델은 더 자세한 사진을 만들기 때문에 이미지 렌더링에 최대 1분까지 걸리는 시간이 길어집니다.
https://openai.com/index/introducing-4o-image-generation/