一文详解Midjourney v6新版本 3 大要点

首先是 V6 的图像生成质量相比之前的模型来说又提升了不少，在画面质感以及细节刻画上有了更精致的表现，图像的光影处理也比 v 5.2 更真实自然。下面是分别用 v5.2 和 v6 生成的特写图像，通过对比可以看出 v6 的细节更锐利明确，不像 v5.2 那样有种灰蒙蒙的感觉。

另一个更重要的改进是 v6 模型对文本提示词的理解。一方面是 v6 模型可以理解更长的文本提示了，提示词容量达到了 350-500 个词，而 v5.2 中超过三十个词后，提示词就不起作用了；另一方面是 v6 对语义的理解也更准确，它可以正确呈现提示词内提到所有元素，以及元素的颜色、位置以及互相之间关系。v6 还支持自然语言描述，所以提示词不要需要全部都用短语，这都让我们可以更轻松准确地生成自己想要的内容。

我们来看几组提示词，感受一下 V6 在语义理解上的进步。

首先是有关“双重曝光”主题的图像，提示词比较简单“Side view of a woman, giant flower, double exposure, surreal photography 女人侧影、巨型花朵、双重曝光、超现实摄影”，通过对比可以看出 v6 对双重曝光的理解更准确，而 v5.2 的图像只是一个摄影作品，没有体现出双重曝光的特效。

一文详解Midjourney v6新版本 3 大要点

之前我尝试在 Midjourney 中生成“一个男孩飘在空中，一只手向前伸出”这样的指定动作，尝试了很多次效果都不太好，这次用 v6 试了一下，生成指定动作的成功率要比 v5.2 高不少，同时人物整体的姿态也更自然了。

一文详解Midjourney v6新版本 3 大要点

然后是对于复杂提示词的理解。我特意在提示词写了很多物体，包括木头桌子，白色的花瓶、黄色的玫瑰、红色的碗，还有多种水果，并描述了它们之间的位置关系。从生成结果来看，v5.2 没有准确呈现碗的颜色，在提示词中位置靠后的苹果、蓝莓这些元素也都丢失了；而 v6 则准确地生成了不同颜色的物体，位置关系正确，也没有出现元素丢失的情况。

A photo-realistic photo of a wooden table with a white vase with yellow roses. Next to it is a red bowl with lemons and apples, with some blueberries scattered around the side of the bowl. Next to the table is a white window. --ar 2:3

这是一张木桌的写实照片，桌上放着一个白色花瓶，里面插着黄玫瑰。旁边是一个红色的碗，碗里有柠檬和苹果，碗边散落着一些蓝莓。桌子旁边是一扇白色的窗户。--ar 2:3

一文详解Midjourney v6新版本 3 大要点

V6 模型还有一个重大进步——支持生成准确的英文文本内容，操作方法是在写提示词的时候，用英文的双引号将文字内容括起来，比如「a neon sign with text “UISDC”」。生成文字内容时，最好选择 style raw 模式，或者设置较低的 stylize 值，因为 stylize 过高会导致文本内容扭曲。

一文详解Midjourney v6新版本 3 大要点

除了新的 v6 模型，Midjourney 其他的参数和命令功能也有对应的调整。

首先是对于 v6 模型来说，--ar、--chaos、--weird、--tile、--stylize、--style raw、Vary（subtle/strong）、Remix、/blend 这些参数和命令是可以正常使用的，但是 pan、zoom out、vary region、/tune 等功能则要晚一点才上线，并且性能上也会进行优化。 /describe 目前也可以使用，但之后会有一个 v6 的新版本推出。

V6 版本的图像放大选项则是变成了 Upscale(Subtle) 和 Upscale(Creative)，二者都可以将将一张图像放大 2 倍，区别在于 Subtle 放大的图像会与原图非常相似，只在细节上会有细微变化；而 Creative 放大后的图像则会在细节上与原图有明显的不同，这个大家按实际需求选择就可以了。

一文详解Midjourney v6新版本 3 大要点

V6 模型上线后，很多小伙伴都反映说同样的提示词 v5.2 和 v6 出来效果完全不同，这是因为 v6 是一个重新训练的模型，它的图像生成算法与 v5.2 有很大的不同，所以我们需要重新学习其提示词的写法。

但目前也没有一套确定的提示词规则可以作为参考，因为目前的 v6 是 alpha 测试版，在未来一段时间它的还会发生一系列的重大变化，所以在完整版确定下来之前，我们只能自己先摸索。我总结了一些官方以及网友给出的建议，大家可以做为参考：

v6 模型对提示词非常的敏感，所以在提示词中不要使用“安慰剂”词语，比如“获奖、逼真、4k、8k”等，它们并不能优化图像质量，反而还会干扰画面内容的生成。
想生成更真实自然、更偏向写实摄影的图像时，可以使用 --style raw 参数；如果是想生成艺术感和美学性更强的图像，可以调高 --stylize 的数值。
v6 模型对提示词的理解变得更准确了，但这也让它显得有些“呆板”，因为对于没有提到的内容 v6 都不会呈现，不再像 v5.2 模型那样会自由发挥。前面我们提到过 v6 的提示词容量现在变大了，所以对于想要在画面中呈现的内容，如主体、颜色、细节、构图、风格等，一定要详细的描述出来。
如果画面中没有出现自己想要的内容，可以通过一些方法找回，比如检查是不是遗漏了对应的关键词；将重点词语移到提示词靠前的位置；检查是否有一些不太重要的词语，将它们移到靠后的位置或者删除；以及换一种表达方式，比如将 big 换成 huge/giant，two 换成 a couple 等，让用词尽量精准。

下图是同一组提示词分别在 v5.2 和 v6.0 中生成的图像，二者风格差别非常明显。

A young man and a young woman are checking out for the buying in a shopping center, flat illustration style --ar 10:16
一名年轻男子和一名年轻女子在购物中心结账，平面插画风格 --ar 10:16

一文详解Midjourney v6新版本 3 大要点

这是因为对于 v6 模型来说，“ flat illustration style”所指的内容太过宽泛了。如果想让 v6 生成的风格贴近 v5.2 的样式，需要加入一些更具体的风格关键词，比如 UI、极简、矢量等，此外也可以再优化一下提示词顺序，加入一些颜色、服装等方面的细节描述，让生成的图像更贴合自己的需要。

一文详解Midjourney v6新版本 3 大要点