用 GPT Image 做图时,结果不稳定通常来自需求写得太松。只写风格词,模型会自行补全大量细节;写成一份清楚的视觉需求,结果会更接近可交付素材。
这篇文章整理一套可直接复用的中文写法,适合 Logo、产品图、信息图、UI mockup、广告海报、图片编辑和多图合成。
GPT Image 的提示词基本公式
1 | 创建 [图片类型],用于 [使用场景]。 |
提示词要素拆解
| 要素 | 要写清楚什么 | 作用 |
|---|---|---|
| 图片类型 | logo、海报、产品图、图标、UI mockup、信息图、角色设定 | 让模型选择正确的视觉语法 |
| 使用场景 | App 图标、品牌官网、社媒封面、广告落地页、演示文稿 | 决定信息密度和风格尺度 |
| 主体 | 人物、产品、动物、建筑、抽象符号 | 锁定画面核心 |
| 构图 | 居中、三分法、俯视、特写、对称、留白 | 控制可读性和商业可用性 |
| 风格 | 极简、未来感、复古、儿童绘本、电影感、3D 渲染 | 控制审美方向 |
| 材质与光线 | 金属、玻璃、纸张、霓虹、自然光、棚拍 | 提升质感 |
| 文字 | 文字内容、字体气质、是否允许文字、是否无文字 | 避免模型乱写字 |
| 约束 | 不要水印、不要多余文字、不要畸形手、不要复杂背景 | 降低常见瑕疵 |
| 输出规格 | 1:1、16:9、透明背景、可印刷、扁平矢量 | 便于直接使用 |
通用提示词模板
可以先套这条结构:
1 | 生成一张 [图片类型],用于 [具体场景]。 |
这一套结构的重点是把“好看”拆成可执行信息:用途、主体、构图、风格、文字规则、限制条件和输出规格。
示例:Logo 提示词
1 | 为 Northstar Analytics 创建一个原创 logo,品牌属于 AI 数据分析工具。 |
这条提示词把行业、品牌气质、视觉隐喻、颜色、应用场景和禁止项都交代清楚了。模型不用猜“高级感”具体指什么,输出会稳定很多。
Logo 类提示词建议至少包含:
- 品牌名和行业
- 品牌性格:可信、年轻、高端、亲和、专业、未来感
- 核心符号:字母、几何图形、自然元素、抽象隐喻
- 使用场景:App 图标、网站导航、包装、名片、社媒头像
- 颜色数量:通常 2 到 3 个主色更稳
- 技术要求:矢量风格、透明背景、清晰轮廓、单色可识别
- 禁止项:不要复杂照片感、随机文字、过多细节、水印
产品图提示词
产品图要像给摄影师下拍摄 brief,重点写清楚材质、光线、背景、镜头和留白。
1 | 生成一张棚拍产品图。 |
如果要做电商主图,可以再补一句:产品轮廓清晰,边缘干净,背景纯净,适合后期抠图和排版。
信息图提示词
信息图的核心是结构。步骤、箭头、编号、标签和阅读顺序都要写出来。
1 | 创建一张简洁的信息图,用于解释“从提示词到可用图片”的 4 步流程:定义目标、描述画面、加入限制、迭代修正。 |
信息图的文字风险更高。需要中文说明时,把每一步的文字尽量写短,并要求“清晰可读”。
UI Mockup 提示词
UI 图要像真实产品界面,模块名称越具体越好。
1 | 创建一张移动端 UI mockup,产品是个人 AI 学习教练,目标用户是自学编程的人。 |
做 UI mockup 时,少写“漂亮 App 界面”,多写产品类型、核心任务、页面模块和状态信息。
带文字的海报提示词
图片里需要文字时,把文案逐字写出,并说明位置、字体气质、大小关系和出现次数。
1 | 创建一张社媒活动海报,主题是 AI 创作者工作坊。 |
如果图片不需要文字,就直接写:不要任何文字、不要随机字母、不要水印、不要额外 logo。
图片编辑提示词
图片编辑时,先锁住不能变的部分,再描述要修改的部分。
1 | 基于这张图进行编辑。 |
这里最关键的词是“保持”和“只”。它们能减少模型重绘整张图的概率。
多图合成提示词
多图合成要给每张输入图分配角色。
1 | 使用多张输入图进行合成。 |
多图合成最容易出问题的是尺度、阴影和透视。提示词里直接点名这些约束,比只写“融合自然”更稳。
迭代流程
生成图片时,别试图一轮解决所有问题。更稳的流程是:
- 第一轮只定方向,生成多个版本。
- 第二轮选中一个方向,固定主体、构图和配色。
- 第三轮只修一个问题,比如文字、背景、光线或比例。
- 最后一轮要求输出规格,比如透明背景、1:1、4:5、16:9。
每轮只改一个核心问题,方便判断哪条指令影响了结果。
生成前检查清单
提交前快速检查 7 件事:
- 图片类型写清楚了吗?
- 使用场景写清楚了吗?
- 主体和关键元素写清楚了吗?
- 构图、镜头、比例写清楚了吗?
- 风格、配色、光线写清楚了吗?
- 文字规则写清楚了吗?
- 禁止项写清楚了吗?
最后可以记住这一行:
1 | 用途 + 主体 + 构图 + 风格 + 文字规则 + 禁止项 + 输出规格 |
把提示词写成视觉需求,GPT Image 的结果会更稳定,也更接近能直接用于商业内容的素材。