这次更新的影响力,我认为堪比春节期间发布的 Deepseek R1 模型。特别是在设计圈,一片“哀鸿遍野”。究其原因还是在于 GPT-4o 模型的生图能力不仅是改变了传统设计流程,可能也颠覆了现如今主流的 AI 生图工作流。
一、GPT-4o 是什么?
GPT-4o 是一种多模态、多语言生成式预训练转换器模型,它由人工智能 (AI) 开发商 OpenAI 于 2024 年 5 月发布。该模型是一款旗舰级大型语言模型 (LLM),它属于 GPT-4 AI 模型系列。其他模型则包括 GPT-4o mini、GPT-4 Turbo 和原始版 GPT-4。
GPT-4o 中的“o”代表全方位 (omni),并强调 GPT-4o 是具有声音和视觉功能的多模态 AI 模型。这意味着它可接受混合了文本、音频、图像和视频输入的提示数据集。GPT-4o 还能生成图像。GPT-4o 为同为转换器驱动的 GPT-4 智能引入了多媒体输入与输出功能,从而可为其系列中的其他模型提供支持。
那多模态模型是啥?
指的是能够同时处理文本、图像和音频输入,并生成相应的输出。例如,之前我教过大家如何利用 AI 文本生成工具,通过图像反推生成提示词。

反之,多模态模型也能通过提示词生成图片。
但是,它所生成的图像效果是远远不如 Midjourney、StableDiffusion 等主流图像模型的。
直到 2025 年 3 月 26 日,OpenAI 更新了 GPT-4o 的图像生成功能,使其多模态模型的图像生成能力达到了与 Midjourney、StableDiffusion 等图像模型相媲美,甚至在某些方面超越它们的水平。

二、GPT-4o 的主要特点:
OpenAI 官方发布了一篇 GPT-4o 图像生成的介绍
地址: https://openai.com/index/introducing-4o-image-generation/
接下来我分享给大家的介绍,也是引用 OpenAI 这篇文章中的案例。
GPT-4o 图像生成的特点主要包括六类:文本渲染、多轮生成、遵循指令、情境学习、世界知识、真实风格。
1、文本渲染
GPT-4o 能够准确生成图像中的文本内容,支持制作包含文字的图像,如菜单、邀请函和信息图等。

2、 多轮生成(上下文)
用户可以通过多轮对话调整和优化生成的图像细节,GPT-4o 能够理解并执行复杂的指令,确保生成的图像符合用户的具体需求。


3、遵循指令
GPT-4o 模型能够精确遵循用户的指令,生成符合要求的图像,即使在复杂的场景和细节中也能保持一致性。

4、情境学习
GPT-4o 能够理解上下文信息,将其融入图像生成过程中,确保生成的图像与对话内容或提供的提示词高度相关。


5、丰富知识库
GPT-4o 模型具备丰富的世界知识,能够生成包含复杂文本的商业级图像,如菜单、信息图表和徽标等



6、写实风格
GPT-4o 支持多种艺术风格的转换,从写实照片到插图等,能够生成具有真实感的图像,捕捉细致的纹理和光影效果。
提示词:“这是一张狗仔队偷拍的照片,照片中卡尔·马克思匆匆走过美国购物中心的停车场,他回头张望,脸上露出惊愕的表情,试图避开镜头。他手里抓着多个装满奢侈品的闪亮购物袋。他的外套在风中飘扬,其中一个购物袋摆动着,仿佛他正在迈步。背景模糊,有汽车,购物中心入口发光,以强调运动。相机闪光灯的眩光使图像部分曝光过度,给人一种混乱的小报感觉。”

提示词:“逼真的水下场景,海豚从废弃地铁车厢的窗户间游过,气泡和细致的水流模拟准确。”

提示词:“水果碗照片,由真实水果和微型行星(木星、土星、火星、地球)混合而成,保持与原始照片一致的真实反射、灯光和阴影,构图清晰,纹理真实,细节渲染清晰。”



