它不是在画图，它在思考怎么画图

你让 AI 画一张中文海报，上面写"新品首发，限时特惠"。

结果出来一看——"新昴首友，陘旹特蕙"。

这个场景，过去两年做过 AI 生图的人应该都经历过。不管你用 DALL-E、Midjourney 还是 Stable Diffusion，中文文字渲染就是一个玄学。能出对字算运气好，出错才是常态。你能做的只有一件事：P图。

4 月 21 日，OpenAI 发了 GPT-image-2。

我看完技术文档和第一批测评后的判断是：这不是一次常规迭代，这是图像生成这件事的底层逻辑变了。

一句话说清楚：它到底新在哪

过去的 AI 画图，不管是 DALL-E 还是 Midjourney，核心都是扩散模型——往一张噪声图上"去噪"，一步步还原出图像。你可以理解为，它在"碰运气"。碰对了就好看，碰错了就鬼畜。

GPT-image-2 换了赛道。

它用的是自回归架构，就是 GPT 生成文字的那套逻辑——一个 token 一个 token 地预测下一步。更关键的是，OpenAI 把 O 系列的推理引擎直接塞了进去。

一句话：它不是在"画图"，它在"思考怎么画图"。

生成之前，先规划构图、布局、元素位置；生成过程中，自我验证、发现错误就回头纠正。这是业界第一个把推理引擎原生集成进图像生成的模型。

它有两个模式：

即时模式：3 秒出图，适合快速迭代
思考模式：引入推理链甚至网页搜索，适合复杂场景

3 秒。上一代 DALL-E 3 要 20-45 秒。

从"画图"到"想清楚再画"：技术哲学的转变

为什么要聊"架构转变"这件事？因为它决定了 AI 图像生成接下来几年的走向。

扩散模型的问题在于：它本质上是全局性的。整张图一起去噪，元素之间的关系全靠训练数据里的统计关联来保证。所以你让它画"一个人左手拿咖啡，右手拿手机"，它经常搞反。让它画"六个手指"，那就更是经典meme了。

自回归 + 推理的组合为什么能解决这些问题？

因为它在生成每一部分之前，先"想"过了。布局在哪、文字放在哪个位置、比例怎么分配——这些决策在像素开始生成之前就已经完成了。生成过程中如果发现前面画错了，还能回头修。

这像什么？

像一个画家和一个设计师的区别。扩散模型是画家——凭感觉、凭手感、凭训练出来的肌肉记忆往上画。自回归+推理是设计师——先看brief，画草稿，定版式，标注好文字位置，确认没问题，再开始精修。

结果的差距是碾压级的。 据多个测评报告，GPT-image-2 在 Text-to-Image 排行榜上领先第二名 242 分。这个分差在以往的模型迭代中几乎没出现过。

中文海报，终于不用 P 图了

AI 中文渲染效果 — GPT-image-2 的中文渲染效果：字符清晰准确，可直接用于商业场景

说完技术，说最实际的东西。

文字渲染准确率约 99%。
注意，这个数字来自多个独立测评报告，而非 OpenAI 官方发布的 benchmark。但从大量实测案例来看，中文、日文、韩文的精准渲染确实是 GPT-image-2 最直观的突破。

做过电商的人都知道这意味着什么。

以前你要出一张中文促销海报，流程是这样的：AI 生成背景图 → Photoshop 加文字 → 调字体调排版 → 导出。AI 那张图只是个"底图"，文字部分完全手工。

现在的流程：描述你要什么 → 出图 → 用。

一步到位。中间那些P图的环节，省了。

这对中文互联网的内容创作者来说是个实质性的里程碑。DALL-E 时代的"中文乱码"不是小毛病——它直接把 AI 生图从"能用"打成了"不能用"。你总不能在公众号封面图上放一行乱码。

再说另外两个实操层面的升级：

原生 4K 分辨率（4096×4096），支持 3:1 到 1:3 任意比例。 上一代 DALL-E 3 最高只有 1792×1024。这意味着 GPT-image-2 生成的图可以直接用在印刷场景——海报、展架、杂志封面，不用再拉伸或超分。

局部重绘能力大幅提升。 它用的是"两栏逻辑"——你指定要改的区域，它精准替换目标内容，背景保持原样，没有重影、没有接缝。以前局部重绘最头疼的就是改完后背景跟着变，现在这个问题基本解决了。

四代对比，一张表说清楚

维度	DALL-E 3	gpt-image-1/1.5	GPT-image-2
架构	扩散模型	原生多模态（GPT-4o）	推理增强自回归
生成速度	20-45 秒	—	约 3 秒
文字渲染	弱，中文不可用	约 90-95%	约 99%
最大分辨率	1792×1024	—	4096×4096
局部重绘	基础	改善	两栏逻辑，背景保真
推理能力	无	无	O 系列推理引擎

三代产品，三个时代。DALL-E 3 是"能画"，gpt-image-1 是"画得像样"，GPT-image-2 是"想清楚再画"。

四大 AI 图像模型竞争格局 — 四大阵营对峙：GPT-image-2 · Midjourney · Stable Diffusion · Imagen

竞品格局：各有各的活法

模型	核心优势	短板
GPT-image-2	实用性最强，文字渲染 99%，API+企业版齐全	价格贵，审美偏"实用"
Midjourney v7	审美上限最高，艺术风格突出	API 受限，文字渲染差
SD 3.5	开源自由，ControlNet/LoRA 精调	门槛高，需自建算力
Imagen 3	极致真实感，Vertex AI 集成	生态相对封闭

简单说：如果你要审美天花板，选 Midjourney；如果你要自由度，选 SD；如果你要商业落地、快速出活，GPT-image-2 目前是最实际的选择。

部分设计师提出了一个有意义的批评：GPT-image-2 在遵循品牌 VI 的精确度上还有差距。你给它一套品牌色板和字体规范，它不一定能严格按规范来。对于大品牌的标准化视觉产出，人工设计师目前还是不可替代的。

Sora 被砍，图像杀出来了

这里插一个值得关注的商业信号。

OpenAI 已官宣砍掉 Sora（视频生成），将资源重注到图像商业化上。

这个选择耐人寻味。

Sora 发布时声量很大，但商业化进展一直不顺——成本高、生成慢、可控性差、版权问题复杂。相比之下，图像生成的商业路径要清晰得多：电商需要产品图，营销需要海报，UI 设计需要原型，这些都是已经被验证过的付费场景。

OpenAI 选择在视频和图像之间做取舍，说明一件事：当资源有限时，先打能赢的仗。

定价：贵了一倍，但账要这么算

项目	价格
图像输入	$8.00 / 1M tokens
图像输入（缓存）	$2.00 / 1M tokens
图像输出	$30.00 / 1M tokens
文本输入	$5.00 / 1M tokens
Batch API	减半（省 50%）

图像输出 $30/1M tokens，比上一代贵了一倍。

贵吗？绝对值上肯定贵。但要算综合账：

以前：AI 生图 + 人工 P 文字 + 反复修改 = 总成本不低

现在：AI 一步出图 + 直接可用 = 总成本可能更低

对于电商场景，一张产品图从"出底图"到"能用"的时间从小时级压缩到秒级，省下的人力成本远超 token 费用的涨幅。

对于高频调用的企业，Batch API 省 50% 是关键。

API 调用有两种方式：

Responses API（推荐）：支持多模态链式工具调用
Images API：直接图像生成，适合简单场景

对创作者和开发者意味着什么

如果你是内容创作者 / 设计师：

工具变强了，但你的核心价值没变。GPT-image-2 能快速出图、精准渲染文字、局部重绘，这些都是"执行层"的提效。但审美判断、品牌理解、创意策划——这些"决策层"的能力，AI 目前还替不了。

Gizmodo 批评说这是"AI Slop 的文艺复兴"，PANews 说"设计师生计面临威胁"。两个说法都有道理，但都不完整。更准确的描述是：执行门槛降低了，审美门槛反而提高了。

如果你是开发者 / 技术负责人：

值得认真评估是否把 GPT-image-2 接入你的产品。适合的场景：

电商：产品图批量生成、背景替换
营销：多语种海报、社交媒体素材快速迭代
UI/UX：原型图快速生成
虚拟试穿：服装电商的刚需

最后说一句

GPT-image-2 不是"AI 画图又进步了一点点"。

它是图像生成从"随机碰撞"走向"有意识思考"的分水岭。

当一个模型开始在画之前先想、画的过程中会检查、发现错了能回头改——这件事的意义不止于出图质量的提升，它重新定义了 AI 和视觉创作之间的关系。

至于它到底能不能替代设计师？

别想这个问题了。更有意义的问题是：你打算怎么用它。