首先是 V6 的图像生成质量相比之前的模型来说又提升了不少,在画面质感以及细节刻画上有了更精致的表现,图像的光影处理也比 v 5.2 更真实自然。下面是分别用 v5.2 和 v6 生成的特写图像,通过对比可以看出 v6 的细节更锐利明确,不像 v5.2 那样有种灰蒙蒙的感觉。
另一个更重要的改进是 v6 模型对文本提示词的理解。一方面是 v6 模型可以理解更长的文本提示了,提示词容量达到了 350-500 个词,而 v5.2 中超过三十个词后,提示词就不起作用了;另一方面是 v6 对语义的理解也更准确,它可以正确呈现提示词内提到所有元素,以及元素的颜色、位置以及互相之间关系。v6 还支持自然语言描述,所以提示词不要需要全部都用短语,这都让我们可以更轻松准确地生成自己想要的内容。
我们来看几组提示词,感受一下 V6 在语义理解上的进步。
首先是有关“双重曝光”主题的图像,提示词比较简单“Side view of a woman, giant flower, double exposure, surreal photography 女人侧影、巨型花朵、双重曝光、超现实摄影”,通过对比可以看出 v6 对双重曝光的理解更准确,而 v5.2 的图像只是一个摄影作品,没有体现出双重曝光的特效。
之前我尝试在 Midjourney 中生成“一个男孩飘在空中,一只手向前伸出”这样的指定动作,尝试了很多次效果都不太好,这次用 v6 试了一下,生成指定动作的成功率要比 v5.2 高不少,同时人物整体的姿态也更自然了。
然后是对于复杂提示词的理解。我特意在提示词写了很多物体,包括木头桌子,白色的花瓶、黄色的玫瑰、红色的碗,还有多种水果,并描述了它们之间的位置关系。从生成结果来看,v5.2 没有准确呈现碗的颜色,在提示词中位置靠后的苹果、蓝莓这些元素也都丢失了;而 v6 则准确地生成了不同颜色的物体,位置关系正确,也没有出现元素丢失的情况。
A photo-realistic photo of a wooden table with a white vase with yellow roses. Next to it is a red bowl with lemons and apples, with some blueberries scattered around the side of the bowl. Next to the table is a white window. --ar 2:3
这是一张木桌的写实照片,桌上放着一个白色花瓶,里面插着黄玫瑰。旁边是一个红色的碗,碗里有柠檬和苹果,碗边散落着一些蓝莓。桌子旁边是一扇白色的窗户。--ar 2:3
V6 模型还有一个重大进步——支持生成准确的英文文本内容,操作方法是在写提示词的时候,用英文的双引号将文字内容括起来,比如「a neon sign with text “UISDC”」。生成文字内容时,最好选择 style raw 模式,或者设置较低的 stylize 值,因为 stylize 过高会导致文本内容扭曲。
除了新的 v6 模型,Midjourney 其他的参数和命令功能也有对应的调整。
首先是对于 v6 模型来说,--ar、--chaos、--weird、--tile、--stylize、--style raw、Vary(subtle/strong)、Remix、/blend 这些参数和命令是可以正常使用的,但是 pan、zoom out、vary region、/tune 等功能则要晚一点才上线,并且性能上也会进行优化。 /describe 目前也可以使用,但之后会有一个 v6 的新版本推出。
V6 版本的图像放大选项则是变成了 Upscale(Subtle) 和 Upscale(Creative),二者都可以将将一张图像放大 2 倍,区别在于 Subtle 放大的图像会与原图非常相似,只在细节上会有细微变化;而 Creative 放大后的图像则会在细节上与原图有明显的不同,这个大家按实际需求选择就可以了。
V6 模型上线后,很多小伙伴都反映说同样的提示词 v5.2 和 v6 出来效果完全不同,这是因为 v6 是一个重新训练的模型,它的图像生成算法与 v5.2 有很大的不同,所以我们需要重新学习其提示词的写法。
但目前也没有一套确定的提示词规则可以作为参考,因为目前的 v6 是 alpha 测试版,在未来一段时间它的还会发生一系列的重大变化,所以在完整版确定下来之前,我们只能自己先摸索。我总结了一些官方以及网友给出的建议,大家可以做为参考:
- v6 模型对提示词非常的敏感,所以在提示词中不要使用“安慰剂”词语,比如“获奖、逼真、4k、8k”等,它们并不能优化图像质量,反而还会干扰画面内容的生成。
- 想生成更真实自然、更偏向写实摄影的图像时,可以使用 --style raw 参数;如果是想生成艺术感和美学性更强的图像,可以调高 --stylize 的数值。
- v6 模型对提示词的理解变得更准确了,但这也让它显得有些“呆板”,因为对于没有提到的内容 v6 都不会呈现,不再像 v5.2 模型那样会自由发挥。前面我们提到过 v6 的提示词容量现在变大了,所以对于想要在画面中呈现的内容,如主体、颜色、细节、构图、风格等,一定要详细的描述出来。
- 如果画面中没有出现自己想要的内容,可以通过一些方法找回,比如检查是不是遗漏了对应的关键词;将重点词语移到提示词靠前的位置;检查是否有一些不太重要的词语,将它们移到靠后的位置或者删除;以及换一种表达方式,比如将 big 换成 huge/giant,two 换成 a couple 等,让用词尽量精准。
下图是同一组提示词分别在 v5.2 和 v6.0 中生成的图像,二者风格差别非常明显。
A young man and a young woman are checking out for the buying in a shopping center, flat illustration style --ar 10:16
一名年轻男子和一名年轻女子在购物中心结账,平面插画风格 --ar 10:16
这是因为对于 v6 模型来说,“ flat illustration style”所指的内容太过宽泛了。如果想让 v6 生成的风格贴近 v5.2 的样式,需要加入一些更具体的风格关键词,比如 UI、极简、矢量等,此外也可以再优化一下提示词顺序,加入一些颜色、服装等方面的细节描述,让生成的图像更贴合自己的需要。
那么以上就是为大家总结的 Midjourney 新版本 v6 的相关内容,后续 v6 应该还会有一波大的更新,我也会及时带大家了解最新的动态。