2023年3月或许是迄今为止全地球最关心AI的一个月,但或许是从此刻开始的未来中,全球最不关心AI的一个月。
姗姗来迟,今天为大家带来大家都在关心的AI绘画软件比较,Stable Diffusion VS Midjourney,也就是SD和MJ。2023年3月,这两款软件和ChatGPT一起,作为几乎是第一批AIGC的代名词收割了全球的目光。这两款软件各有千秋,但对于我来说,最终的选择倾向早有定数。
SD和MJ都属于能够通过prompt(提示词)来进行文生图,或是图生图的方式来生成想要的图片,但在很多具体的部分有很大的差异。本文的目的就是介绍一下两个软件,再对比不同之处。
一、软件简介
Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它是一种潜在扩散模型,它由创业公司Stability AI与多个学术研究者和非营利组织合作开发。目前的SD的源代码和模型都已经开源,在Github上由AUTOMATIC1111维护了一个完整的项目,正在由全世界的开发者共同维护。由于完整版对网络有一些众所周知的需求,国内有多位开发者维护着一些不同版本的封装包。Coder为SD的普及做出了难以磨灭的贡献。
SD最大的特征,就是由于其开源的特性,可以在电脑本地上离线运行。可以在大多数配备至少8GB显存的适度GPU的消费级硬件上运行。我的推荐显存线是12G。
Stable Diffusion界面如下:
Midjourney是一款由总部位于旧金山的独立研究实验室Midjourney, Inc.创建和托管的人工智能程序和服务。Midjourney基于Discord平台提供服务,可以根据自然语言描述(称为“提示”)生成图像,也支持图生图功能。使用MJ需要登陆Discord账号,在聊天界面发送指令后就可以直接在线得到AI图像。
二、主要特征
1、Stable Diffusion主要特征:
①硬件要求高:需要本地的独立显卡,对硬件要求很高。纯CPU也能跑,但是速度会非常慢。
②部署相对麻烦:环境布置略微麻烦,需要从GitHub上用众所周知的方式下很多文件,且要求一定的python知识。如使用国内技术大牛打包的整合包会稍微好一些,但需要从网盘下载,也较为麻烦。
③使用难度较高:SD的界面有很多内容,如采样方式等,以及训练等都需要比较复杂的学习过程。
④上限/下限差距极大:无特殊操作的情况下,SD可能跑出古神。需要有一定的学习过程才能跑出好看的图片,但是图片如果好看,又可以做到非常精致。难上手,难精通,但是精通之后上限极高。
⑤可控性极强:插件极多,LORA极多,可以几乎随心所欲地换风格和形态,出图的数量也极大。
⑥可完全本地运行:运行全程可无需联网,数据仅存在本地,拥有硬件即可无限使用。
⑦【极其重要】可以训练模型:可以“炼丹”,训练只属于自己的数据库,让AI完全按照自己的想法去塑造目标风格的内容。
2、Midjourney主要特征:
①无硬件要求:使用科学上网,能够使用discord就能够使用。对本地硬件性能0要求,可以在几乎所有设备上运行。
②部署极为简单:点开discord马上就能使用,几乎没有什么门槛。
③使用难度较低:基本上复制好提示词,选好选项,就可以。
④上限/下限差距很小:无特殊操作的情况下,MJ能够立刻产出比较讨喜的图片。但是能够把控的范围也更小。容易上手,容易精通,但是精通之后上限相对固定。
⑤可控性极弱:没有插件,没有LORA,产出的画面风格非常固定。
⑥必须联网运行:运行全程联网,数据存在服务器上,难以本地保存。
⑦无法自定义自己想要的模型:只能用官方提供的。
三、操作效果
直观的来说,啥都不会的人,哪怕复制别人的提示词,SD的用户会得到:
但是MJ用户只要复制提示词,一开始就能得到:
但是到后面,随着能力的提升,SD用户能够随心所欲地训练自己的模型和LORA,乃至引入controlnet用各类工具来控制AI绘画出图的内容。甚至还可以指定区域重绘……这个过程最终就会很像真实的绘画。
四、小结
简单来说,SD是在本地运行的服务,开源,但门槛较高,但是能够实现的效果上限极高。而MJ作为在线的服务,门槛低,但是可控性不够强,上下限差距不大。
SD和MJ我都高强度用了一段时间,但我还是坚持选择SD。因为SD可以训练自己想要的模型,并且完全掌控。虽然炼丹比较麻烦,其中涉及到很多参数调整和素材,非常复杂,但是这个过程走完之后得到的模型能够成为炼丹术士的美术资产。今后的世界里,只属于自己的模型或许是公司或是个人的重要资产,是竞争力,也是壁垒。