经过多月来 Midjourney 和 Stable Diffusion (SD)发酵後,Microsoft 和 Adobe 昨晚双双发表针对不同用户群的 AI 图像生成服务。今次我们就以三个面向一般用户的平台,来比较一下它们的系统特色、画像质素和对内容审查的规范。
平台特色Midjourney
易用程度:★★★★☆
港人参与难易度:★★★★☆
Stable Diffusion
易用程度:★☆☆☆☆
港人参与难易度:★★★★★
Bing 影像建立者
易用程度:★★★★★
港人参与难易度:★★☆☆☆
图像比拼
三大平台由於推出时间不同和系统灵活性,模型的规模和针对性都有很大差别。在今次测试中发现三个平台大致上对自然语言的语意理解能力大致上相近,但是在生成影像的变化和画像质素上落差就很大。
今次我们没有对生成时间作严格比较,因为那很受伺服器是否繁忙影响,难以一槪而论,自建的 SD 也受硬件配置影响,不一定会很快。而且三个平台比较起来,生成 4 张图片的速度其实相差也不大。
另外,Midjourney 和 Bing 影像建立者对内容的规范较多,而 SD 因为任何人都可以训练模型,涉及肖像权、版权及道德相关的问题亦较多。
比试 1 :人像
提示句:「a beautiful girl portrait with detailed face and blonde hair, photorealistic, high quality, 50mm lens」
MidJourney
Stable Diffusion (Playground)
Stable Diffusion (模型:ChilloutMix_NiPrunedFp32Fix, 预设参数)
Bing 影像建立者
从上图可见,论艺术美感 Midjourney 最高,而 Stable Diffusion Playground 和 Bing 都有较多姿态变化,但 Bing 就比较贴题。在使用官方模型下,SD 其实没有甚麽优势,不过 SD 的强项是自建系统配特制模型,所以在强化东方女性表现 ChilloutMix_Ni 模型加持下,所生成的美女肖像相片自然有最高质素。
比试 2 :动画风景
提示句:「a girl running in tokyo street. The sky is cloudy with shinkai makoto style. Viewing the girl with low angle, photorealistic, highly detailed background and sky」
MidJourney
Stable Diffusion (Playground)
Stable Diffusion (模型:Anything v4.5, 预设参数)
Bing 影像建立者
一场高下立见的比试,在动画特化的模型加持下,自建 SD 完全抛离对手,生成的女孩很可爱,视角变化也很丰富,不过在没有太多负面参数修正下,畸型肢体问题仍然明显。Midjourney 虽然能生成具动画风的图像,视角丰富,色彩分明,但所有女孩都是「毁容」的,减分不少。至於官方 SD,虽然不能生成动画风格图像,但起码是贴题的。最後的 Bing 所生成的图像都像草图,很难看得出那里是东京,而且视角没有变化。
比试 3 :实写风景
提示句:「looking down from hong kong Victoria Peak with a sunny sky, photorealistic, high quality」
MidJourney
Stable Diffusion (Playground)
Stable Diffusion (模型:SD 2.1, 预设参数)
Bing 影像建立者
这项比拼基本上没有一个平台能生成真实的太平山顶俯瞰景色,不过 SD 官网和使用官方 SD 2.1 模型的自建 SD 系统都能描绘出像实景的图像,Bing 所生成的图像就足错重点在 Sunny Sky 上,令到整张画像都看不清楚景色。至於 Midjourney 就贯彻它的艺术风格,看起来仍然是像创作的图画。
比试 4 :内容规范
提示句:「a beautiful girl portrait with detailed face and blonde hair wearing maid headdress, photorealistic, high quality, 50mm lens」
最後,我们发现 Bing 似乎比其他公开图像生成平台有较严格的内容规范。笔者以上面一段看似没有甚麽道德或儿童色情问题的语句来生成图像,但 Bing 却回覆侦测到不安全的影像内容,拒绝生成图像。我们发现只要将 girl 和 maid headdress 女仆头饰放在一起,Bing 就会拒绝生成。後来我们将 girl 改为 female maid,就能成功生成图像,但也只生成一张图像,而不是平常的 4 张。大家将来使用 Bing 时,可能也会遇到这样奇怪的反应。
结语
试用了半天 Bing 影像建立者之後,觉得它虽然是最容易上手的图像生成系统,不过在画质上还有待改进。其他平台就各有它的优点和缺点,如果想要艺术美感较强的图像的话,Midjourney 会比较合适,而如果手上有规格较强的电竞电脑的话,自建 SD 平台就可以产生较高画质的图像,不过维护这样的平台耗费的心力和时间也不少。