logo
03

图像生成与构图技巧

⏱️ 25分钟

图像生成与构图技巧

AI image generation 现在已经很强,但真正决定成片质量的,依然不是 model 名字,而是 composition judgment。很多图“技术上能生成”,但商业上不能用,因为主体不清、层次不对、留白不够、风格也不成体系。

如果你是为了做 content、campaign、课程素材或 product visual,这页更应该关注怎么控制构图,而不是单纯追新模型。

Image Generation Composition Map


先说结论:Prompt 只是入口,构图才是控制杆

同样一句 prompt,为什么有时出神图,有时像 stock garbage?
核心差异通常不在“词汇量”,而在你有没有明确:

  1. 主体在哪里
  2. 镜头离主体多远
  3. 背景承担什么作用
  4. 哪块空间要留给 text / UI / crop

没有这些决策,AI 只会凭训练偏好帮你猜。


商业场景最常见的 4 类出图任务

任务类型重点常见坑
hero visual强氛围、强识别、可承载 headline画面太满,没文案位
product image产品清楚、材质真实、商用感强主体比例不稳,细节假
social cover小尺寸也能一眼看懂元素太碎,缩小就糊
explainer visual信息结构清楚图很酷,但不传达知识点

先知道你在做哪一类,再决定 prompt 写法和画面结构。


一套够用的构图变量

不要把 prompt 写成形容词堆砌。更稳的是按变量写。

变量你要决定什么
Subject画面主角是谁
Framingclose-up、medium、wide、top-down
Environment背景是叙事还是衬托
Lightingclean studio、soft daylight、cinematic contrast
Palettewarm neutral、tech blue、editorial monochrome
Space哪一侧留给标题、logo 或裁切

如果你把这 6 个变量先想清楚,prompt 自然会更稳定。


商业构图比“好看”更重要

一张图能不能用,不是看它单独打开时多惊艳,而是看它放进真实场景后是否 still works。

比如:

  • landing page hero 需要 headline space
  • short video cover 需要小屏识别度
  • article cover 需要 crop 后主体还在
  • ad creative 需要 product + message hierarchy

这也是为什么很多“AI 神图”到了业务里完全没法用。


一个更稳的出图思路

Use case
  -> Layout intent
  -> Prompt draft
  -> Generate variants
  -> Pick the strongest composition
  -> Edit / expand / adapt

关键不是一次命中,而是先生成几个构图方向,再选最能服务 use case 的那一张。


常见工具怎么选

Tool更适合什么你要注意什么
Midjourneymood、style、构图审美商业文本和精修 still 要补后处理
ChatGPT image / DALL-E 类instruction following、概念图、简单商业图风格稳定性要靠 reference
Stable Diffusion / Flux workflowcontrollability、batch、custom pipeline成本是 setup 和操作复杂度

对大多数 content team 来说,不需要同时掌握所有工具。
先把一套 core workflow 跑顺,比 tool collecting 更重要。


Prompt 公式,够用就行

一个够稳的 image prompt 往往长这样:

[subject], [framing], [environment], [lighting], [palette], [style],
clear focal point, commercial composition, negative space on the right

例如:

A premium skincare bottle, front-facing medium shot, placed on a matte stone surface,
soft daylight, warm neutral palette, clean commercial photography style,
clear focal point, negative space on the right for headline

这类 prompt 的关键不是华丽,而是每个词都服务于构图决策。


实战例子 1:课程封面图

目标:给 AI learning page 做 hero image。

更好的思路不是“做一张很炫的科技图”,而是:

  • 主题要一眼可读
  • 颜色不能跟站内风格冲突
  • 中心视觉要适合横向裁切
  • 最好保留一块给标题

如果你生成的是课程封面,过于复杂的 background 往往反而削弱信息传达。


实战例子 2:电商产品视觉

产品图最常见的问题不是不美,而是不像真的能卖。

可用标准通常是:

检查项标准
product shape不变形
material feel看起来可信
light logic阴影和反光合理
hierarchy主体最突出
crop safety4:5, 1:1, 16:9 都能适配

如果同一张图连 1:1 和 4:5 都不适合裁,说明构图一开始就没想好。


实战例子 3:知识型配图

知识内容最容易犯的错,是把“插图”做成“壁纸”。

更好的方法是让 visual 直接服务信息结构,比如:

  • 用 3 层结构表示 workflow
  • 用 left-to-right 表示 process
  • 用色块区分 input / model / output

这类图未必要很写实,但必须清楚。


Negative Prompt 和限制条件

限制词不是可选项,尤其在商业场景里。

常见限制包括:

  • no extra hands
  • no distorted text
  • no cluttered background
  • no low-detail face

但不要把 negative prompt 写成一长串垃圾桶。真正有效的是先把正向结构定义清楚,再用少量限制清边界。


常见翻车点

问题原因修法
画面很满没考虑 headline 和 crop明确留白方向
主体不突出prompt 没 focal point加 framing 和 hierarchy
风格漂移每次临时写风格词固定 palette 和 style rules
看起来像 AI 图细节太杂、光线太假降低元素数量,统一 light logic

Review Checklist

  • 这张图是为哪个 use case 服务
  • 小屏缩略图下是否 still readable
  • 有没有明确 focal point
  • 留白和裁切是否安全
  • 放进页面后是否跟现有 visual language 一致

Practice

拿一个真实 use case,比如课程封面、社媒 cover、产品视觉。
先不要生成,先把这 5 项写出来:

  1. subject
  2. framing
  3. palette
  4. negative space
  5. crop ratio

只要这 5 项清楚,出图成功率会明显提高。