Midjourney 实战入门：从提示词到角色一致性，一篇讲透 V7 玩法

Midjourney 是目前公认出图质量最高的 AI 绘画工具之一，从插画、概念设计到商业海报都能胜任。但它的”门槛”和别的工具不太一样：操作本身很简单，难的是理解它的”脾气”——怎么写提示词、怎么用参数、怎么保持角色一致。很多新手出了几张图觉得”也就那样”，其实是没摸到门道。这篇近万字的实战入门，会把从开通账号到进阶控图的完整路径讲透，并重点澄清 2026 年 V7 版本下几个容易踩坑的变化。读完你就能从”碰运气抽卡”升级到”心里有数地控图”。

一、先搞清楚：Midjourney 是什么、怎么用

Midjourney 是一个基于文本生成图像的 AI 服务。和可以本地部署的 Stable Diffusion 不同，它是纯云端、订阅制的闭源服务——你不需要显卡，付费订阅后在网页端或 Discord 里输入提示词即可出图。它的最大特点是”开箱即美”：默认审美在线，不用像 SD 那样折腾模型、插件、采样器，因此特别适合追求成品效果、不想钻技术细节的创作者、设计师和内容工作者。

使用方式目前有两种：早期通过 Discord 频道用 /imagine 指令出图，需要在服务器里和机器人交互；现在官方网页端（midjourney.com）体验更顺手，能直接管理作品、可视化调参数、做后续编辑，还能浏览社区里别人的作品和提示词。新手建议直接用网页端入门。

订阅分基础、标准、专业等多个档位，区别主要在每月的”快速出图”额度、是否有”放松模式”（Relax，不限量但需排队）以及隐身出图等高级功能。如果你只是尝鲜，最低档足够体验；确定要高频使用，再按出图量升级。一个建议：先用一个月最低档，摸清自己的实际出图频率，再决定要不要加钱。

二、提示词的核心心法：少即是多

新手最常犯的错误，是把提示词写成一长串形容词的堆砌：”超精细、8K、大师级、获奖作品、电影感、史诗、震撼、超现实、极致光影……”。结果往往是画面糊成一团、重点全无、风格相互打架。Midjourney 官方和资深用户的共识恰恰相反——提示词要简洁、有结构。模型不是关键词越多越好，而是信息越清晰越好。

一个好用的提示词结构是四段式：主体 + 环境/背景 + 风格 + 关键细节。例如：”一只橘猫坐在木质窗台上（主体），窗外是午后的城市（环境），水彩插画风格（风格），柔和的暖色调、阳光斜照、慵懒的氛围（细节）”。这样的提示词每一部分都在传递明确信息，模型不容易”懵”，出图的命中率也更高。

几条经过反复验证的提示词原则：

描述”你想看到什么”，而不是”该怎么画”。Midjourney 不擅长理解”把背景虚化一点””让它更有冲击力””调整一下构图”这类指令式语言，它擅长理解对画面内容的客观、视觉化描述。
把最重要的元素放前面。提示词中靠前的词权重更高，主体和核心特征要优先写，次要的氛围、装饰往后放。
具体优于抽象。”夕阳”不如”橙红色的夕阳，天空有紫色云层”；”未来城市”不如”霓虹灯密布的赛博朋克街道，雨后地面有积水倒影，蒸汽升腾”。越具体，画面越可控。
善用风格锚点。指定具体的艺术媒介（油画、3D 渲染、铅笔素描、黏土定格）、年代（1980s 复古海报、文艺复兴油画）、艺术流派或某种公认的视觉风格，能让 AI 快速定调。
一句话只表达一个清晰的画面。想表达多个互相冲突的概念时，画面容易混乱，不如分多次出图。

三、参数详解：提示词末尾的”控制旋钮”

参数写在提示词最后，用双连字符 -- 引出，是精细控制出图的关键。下面是最常用、最该优先掌握的一批：

–ar（宽高比）：决定画幅。--ar 16:9 横版（适合封面、壁纸、Banner），--ar 9:16 竖版（手机壁纸、海报、短视频封面），--ar 1:1 方形（头像、社媒配图），--ar 3:2 接近相机照片比例。这是几乎每次都要用的参数。
–v（版本）：指定模型版本，如 --v 7。V7 自 2025 年下半年起成为默认模型，在手部、面部细节、光影真实感和提示词理解上比前代都有明显进步。
–style raw：关闭 Midjourney 的”自动美化倾向”，让出图更忠实于你的提示词。当你发现模型总是”自作主张”加滤镜、加梦幻氛围、把你的写实需求拍成艺术照时，加上它会更可控。
–s（stylize，风格化强度，0–1000）：数值越高，Midjourney 的艺术加工越强、越”好看”，但也越容易偏离你的描述；数值越低越写实、越听话。默认约 100，追求精确还原时可调到 50 以下，想要更艺术化可往上调。
–c（chaos，混乱度，0–100）：控制初始四张图之间的差异程度。高 chaos 出图更多样、更意外，适合在项目初期发散找灵感；低 chaos 更稳定、更可预测，适合已经知道想要什么的精修阶段。
–no（负向提示）：排除不想要的元素，如 --no text, watermark, blur（不要文字、水印、模糊）。
–tile：生成可无缝平铺的图案，做背景、纹理、布料图案、包装设计时非常有用。
–seed：固定随机种子，配合相同提示词可复现相近结果，便于做参数对照实验、研究某个变量的影响。

进阶玩家还会用多提示词权重：用 :: 分隔不同概念并赋权重，如 hot dog（一个整体：热狗）和 hot:: dog::（两个概念：热 + 狗）含义完全不同；forest::2 fog::1 则表示”森林”的权重是”雾”的两倍。这能精细调节各元素在画面中的比重，是高手控图的利器。

四、让画面更专业：光影、镜头与构图词汇

同样的主体，加不加”摄影/绘画专业词汇”，出图质感天差地别。这些词是新手和高手的分水岭，值得专门积累：

光线：柔光（soft lighting）、伦勃朗光、逆光（backlight）、黄金时刻（golden hour）、霓虹光、体积光（volumetric light）、影棚布光。光线决定氛围，是质感的第一来源。
镜头与视角：特写（close-up）、广角、微距、鸟瞰（aerial view）、低角度仰拍、浅景深（shallow depth of field，背景虚化）、35mm/85mm 镜头。指定镜头能直接影响构图和空间感。
构图：对称构图、三分法、中心构图、留白、框架式构图。需要给标题留空间的封面图，可以明确要求”上方留白”。
材质与渲染：电影感（cinematic）、虚幻引擎渲染（Unreal Engine）、黏土质感、水彩、版画、像素风。

举个对比：仅写”一个女孩”出的图很普通；写”一个女孩的肖像，黄金时刻逆光，85mm 浅景深，柔和暖调，电影感”，出来的就是有质感的成品。词汇就是你的”画笔”。

五、风格参考 –sref：复刻一种”调性”

--sref（Style Reference）是 Midjourney 最强大的功能之一。它用一张或多张参考图，把图片的风格、氛围、配色、笔触迁移到你的新画面上——注意，迁移的是”风格”而非”具体内容”。比如你有一张喜欢的水彩插画，就能让 AI 用同样的水彩调性去画完全不同的主体，从而保证一组图的视觉统一。

用法是把参考图的 URL 放在 --sref 后面。V7 对风格参考的理解比前代更准确，而且支持多图融合：用空格分隔多个图片 URL，就能把几种风格混合出新调性。还有一个配套参数 --sw（style weight），用来调节风格迁移的强度——值大则风格更浓，值小则更淡。

使用风格参考时有个关键技巧：文字提示里别再堆叠会和参考图冲突的风格词。既然风格交给了参考图，文字就专注描述”画什么内容”即可，否则两边打架反而出不来想要的效果。如果发现风格没迁移到位，可以在文字里补充几个和参考图一致的描述词来强化。做系列插画、品牌视觉物料时，统一的 --sref 是保证”一眼看出是一套”的关键。

六、角色一致性：2026 年 V7 的重要变化（新手高频踩坑）

想让同一个角色反复出现在不同场景里——画绘本、做漫画、做品牌 IP 形象——这叫”角色一致性”，是创作者的刚需，也是 AI 绘画长期以来的难点。这里有一个很多老教程没更新、照着做必失败的重大变化，务必记牢：

过去保持角色一致用 --cref（Character Reference）。但截至 2026 年，旧的 --cref 已不兼容 V7——在 V7 提示词里用它，系统会报错或直接忽略该参数。现在正确的两条路是：

V7 用 Omni Reference（–oref）：这是 V7 引入的统一参考系统，能同时融合角色特征与风格，是 V7 下保持角色/物体一致性的官方推荐方案，配合 --ow（omni weight）调节参考强度。它比老的 cref 更通用，连具体物体（比如一款产品）也能保持一致。
需要”只锁角色、不带风格”时：回退到 V6（--v 6.0）配合 --cref 仍是业内常用的稳妥办法。当对角色还原要求极严、不希望风格被参考图带偏时，很多人专门切回 V6 做这一步，再用 V7 处理其他画面。

记住这条”版本对应参考方式”的规则，能帮你避开网上大量过时教程的坑。判断一个 Midjourney 教程新不新，看它讲不讲 Omni Reference 就知道了——还在无脑教 V7 配 cref 的，基本可以跳过。

七、出图之后：编辑与衍生功能

出图只是开始，Midjourney 真正的效率来自”在结果上继续迭代”。把第一批四张图当作草稿，用下面这些功能逐步逼近成品：

Vary（变体）：对满意的某张图生成相似变体，分”强变化”和”弱变化”，用来在一个满意方向上微调出更多选择。
Vary Region（局部重绘）：框选画面某一块单独重画，比如只改人物的衣服、表情或背景的某个物件，而不动其他部分。这是精修的核心工具。
Pan / Zoom（扩展画布）：向某个方向延展画面，或拉远镜头补全更大的场景，适合做横幅、补构图、把竖图扩成横图。
Upscale（放大）：把选中的图放大到更高分辨率，输出更清晰、细节更丰富，可用于打印和大屏展示。
Blend（混合）：把两到多张图融合成一张，探索意外的组合效果，适合找新灵感。

此外 /describe 能反过来根据一张图生成提示词，是学习”高手怎么写词”的绝佳方法——上传你喜欢的图，看 Midjourney 给出的描述，逐渐积累自己的提示词语感和词汇库。

八、三个完整提示词实例拆解

1. 商业产品图：“一瓶琥珀色精油放在大理石台面上，背景是柔和虚化的绿植，影棚柔光，浅景深，干净简洁，高级感，–ar 4:5 –style raw –s 50″。要点：--style raw + 低 --s 保证产品真实不失真，浅景深突出主体，4:5 适合电商详情页。

2. 人物肖像：“一位戴眼镜的亚洲年轻女性的肖像，黄金时刻逆光，85mm 镜头浅景深，暖色调，电影感，自然微笑，–ar 3:4 –v 7″。要点：镜头 + 光线词汇是质感来源，3:4 适合人像。

3. 场景插画：“一座漂浮在云海中的奇幻城堡，夕阳金光，吉卜力动画风格，温暖梦幻，丰富细节，–ar 16:9 –s 250″。要点：明确风格锚点（吉卜力），较高 --s 强化艺术感，16:9 适合做壁纸或封面。

九、Midjourney 还是别的工具？

AI 绘画工具不止 Midjourney，选对工具能省很多力气：

追求成品美感、不想折腾→ Midjourney。审美默认在线，出图即用。
要完全免费、本地可控、深度自定义→ Stable Diffusion（见本站《Stable Diffusion 绘画入门》），可装模型、LoRA、ControlNet，隐私和自由度最高。
要图里精确渲染中文/英文文字、卡通信息图→ gpt-image 类模型在文字渲染上更强。

很多专业创作者是”组合拳”：用 Midjourney 出主视觉，用 SD + ControlNet 做精准控图和局部，用带文字能力的模型加标题。工具没有最好，只有最适配你当前任务的。

十、新手实战路线图与避坑清单

路线：跑通基础（四段式提示词 + --ar）→ 玩参数（对比 --s 和 --style raw）→ 用 --sref 迁移风格 → 按版本做角色一致性 → 用 Vary Region、Pan/Zoom、Upscale 精修成品。
避坑：提示词不是越长越好，冗长堆砌稀释重点，简洁有结构才可控。
避坑：别用指令式语言，要客观描述画面内容，而非命令模型”怎么改”。
避坑：V7 别再用 –cref，已失效，用 Omni Reference 或回退 V6。
避坑：别指望一次出完美图，把第一批当草稿，靠迭代逼近目标。
避坑：商用先看授权，用于商业项目前务必确认订阅档位对应的版权与商用条款。

总结一句：Midjourney 的高手和新手，差距往往不在审美，而在”是否懂得用简洁提示词 + 正确参数 + 专业词汇 + 持续迭代来逼近目标”。把这篇里的结构化提示词、核心参数、光影镜头词汇、风格与角色参考的正确用法掌握住，再多动手抽几百张图、多用 /describe 拆解好图，你的出图质量会肉眼可见地提升一个台阶。AI 绘画拼到最后，拼的不是工具，而是审美和表达——而表达，是可以练出来的。

# AIGC教程 # AIGC教程 # AI绘画 # Midjourney # V7 # 提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...