《Stable Diffusion AI中文(机画师)》是Stability AI开源的一个text-to-image的扩散模型,旨在激发人类的潜能,提供了多种工具和模型,让用户可以利用AI技术创造新颖和独特的设计、音乐、视频、文本等内容,完成专属于自身的内容创作,并向所有公众用户展现!
Stable Diffusion AI中文是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型,通过LAION-5B子集大量的512x512图文模型进行训练。只要输入一段简单的文本,Stable Diffusion就可以快速将其转换为图像,也可以导入图像或者视频,配合文本对其进行处理。
目前,Stable Diffusion代码开源了,已经在Hugging Face上线,无需拥有强大的硬件,也没有复杂的本地安装,只需输入你想要的文字内容(仅支持英文),就可以在线一键生成AI图像。
1、Stable Diffusion是国外开发的绘图AI助手,让AI帮助用户快速绘图
2、AI可以识别的绘画风格非常多,卡通的、写实的、油画的都可以快速绘制
3、自动完成绘图上色,并且可以添加风格效果,一分钟内完成高质量绘图作品
4、个人用户可以通过AI快速绘图,可以为自己设计草图,方便后期自由优化
5、Stable Diffusion提供的绘图AI构图能力还是非常专业的,可以满足大部分绘图场景需求
6、无论是古典的绘图作品还是现代风格的绘图作品都可以轻松完成
7、Stable Diffusion AI也可以对局部图像内容做简单的修改
8、无论是设计美术作品还是设计草图、设计插画、设计原画都可以通过Stable Diffusion AI执行
Midjourney对语句的训练更精准,图片存留更友好;图片跑出来后调整空间不大,只能通过垫图继续“精准”一点,建议ps会更快。
Stable Diffusion跑小图会更快,目前一次最多可以跑出9张图,垫图的时候可以使用画笔涂抹区域,更人性化;生成大图很肉痛,并且图片也略小。
这是一个通用的指南,内容是基本通用的,可能有例外情况,请读对应的章节了解不同应用的特性。
提示词是提示而不是判定依据,比如你输入质量判定词汇的时候,其实是在限制数据的范围,而不是 “要求” AI 出一张很好的图片。
单词标签#
对于在标签单词上特化训练的模型,建议使用逗号隔开的单词作为提示词。
普通常见的单词,例如是可以在数据集来源站点找到的著名标签(比如 Danbooru)。单词的风格要和图像的整体风格搭配,否则会出现混杂的风格或噪点。
避免出现拼写错误。NLP 模型可能将拼写错误的单词拆分为字母处理。
自然语言#
对于在自然语言上特化训练的模型,建议使用描述物体的句子作为提示词。
取决于训练时使用的数据集,可以使用英文,日文,特殊符号或一些中文。大多数情况下英文较为有效。
避免 with 之类的连接词或复杂的语法,大多数情况下 NLP 模型只会进行最简单的处理。
避免使用重音符(如 é 和 è)和德语 umlauts(如 ä 和 ö),它们可能无法被映射到正确的语义中。
不建议随意套用现成模板,尤其是无法经过人类理解的模板。
Emoji#
Emoji (💰,💶,💷,💴,💵,🎊,🪅🪄,🎀,👩🚀) 表情符号也是可以使用并且 非常准确 的。
Emoji 因为只有一个字符,所以在语义准确度上表现良好。
Emoji 在构图上有影响,比如 💐☺️💐。
表情符号参考
颜文字#
对于使用 Danbooru 数据的模型来说,可以使用颜文字在一定程度上控制出图的表情。
例如:
:-) 微笑 :-( 不悦 ;-) 使眼色 :-D 开心 :-P 吐舌头 :-C 很悲伤 :-O 惊讶 张大口 :-/ 怀疑
仅支持西方颜文字,详细内容请见 Danbooru 颜文字部分 或 维基百科
空格#
逗号前后的少量空格并不影响实际效果。
开头和结尾的额外空格会被直接丢弃。词与词之间的额外空格也会被丢弃。
标点符号#
用逗号、句号、甚至是空字符(\0)来分隔关键词,可以提高图像质量。目前还不清楚哪种类型的标点符号或哪种组合效果最好。当有疑问时,只要以一种使提示更容易被阅读的方式来做。
对于部分模型,建议将下划线(_)转换为空格。
艺术风格词#
可以通过指定风格关键词来创作带有特效或指定画风的图片。
提示词长度#
避免过长的提示词。
提示词放入的顺序就是优先级。由于提示词的权重值从前向后递减,放置在特别靠后的提示词已经对图片的实际生成影响甚微。
不堆叠提示词是一个好习惯,但是如果你确实有很多内容要写,可以适当提高生成步数,以便在生成过程中更好地利用提示词。
SD-WebUI 突破最多 75 个词组限制的方式是将每 20 + 55 个词分为一组。选项 Increase coherency by padding from the last comma within n tokens when using more than 75 tokens 让程序试图通过查找最后 N 个标记中是否有最后一个逗号来缓解这种情况,如果有,则将所有经过该逗号的内容一起移动到下一个集合中。该策略可适当缓解提示词过多无法处理的问题,但可能破坏提示词之间的权重关系。
除了 WebUI 对此情况进行了特殊处理外,由于 GPT-3 模型限制,提示词处理空间并不是无限的,大多在在 75-80 之间,75 字符后的内容会被截断。
特异性#
问题体现在语义偏移上。对于神经网络的训练来说,特征的质量很重要:输入和输出之间的联系越强,神经网络就越容易学习这种联系。
换句话说,如果一个关键词有非常具体的含义,那么学习它与图像之间的联系要比一个关键词有非常广泛的含义容易得多。
这样一来,即使是像 "Zettai Ryouiki" 这样很少使用的关键词也能产生非常好的结果,因为它只在非常具体的情况下使用。另一方面,"动漫" 即使是一个比较常见的词,也不会产生很好的结果,这可能是因为它被用于许多不同的情况,即使是没有字面意思的动漫。如果你想控制你的图片的内容,选择具体的关键词尤其重要。另外:你的措辞越不抽象越好。如果可能的话,避免留下解释空间的措辞,或需要 "理解" 不属于图像的东西。甚至像 "大" 或 "小" 这样的概念也是有问题的,因为它们与物体离相机近或远是无法区分的。理想情况下,使用有很大可能逐字出现在你想要的图像标题上的措辞。
语义失衡#
每一个提示词就像染料一样,它们的 “亲和性“ 不同,如果更常见的提示词,比如 loli (和其他提示词并列放置)的影响就大于其他提示词。
比如,如果你想生成动漫图片,使用了 星空 startrail 标签,相比你期望出现的动漫星空,会有更多来自真实照片的星空元素。
否定提示词#
SD-WebUI 网页应用会在生成时 避免生成否定提示词提及的内容。
否定提示是一种使用 Stable-Diffusion 的方式,允许用户指定他不想看到的内容,而不对模型本身做额外的要求。
通过指定 unconditional_conditioning 参数,在生成中采样器会查看去噪后符合提示的图像(城堡)和去噪后看起来符合负面提示的图像(颗粒状、雾状)之间的差异,并尝试将最终结果远离否定提示词。
比如使用以下提示词避免生成水印和文字内容:
lowres, bad anatomy, bad hands, text, error, missing fingers,
extra digit, fewer digits, cropped, worst quality, low quality,
normal quality, jpeg artifacts, signature, watermark, username, blurry
还如这个例子:
ugly, fat, obese, chubby, (((deformed))), [blurry], bad anatomy,
disfigured, poorly drawn face, mutation, mutated, (extra_limb),
(ugly), (poorly drawn hands fingers), messy drawing, morbid,
mutilated, tranny, trans, trannsexual, [out of frame], (bad proportions),
(poorly drawn body), (poorly drawn legs), worst quality, low quality,
normal quality, text, censored, gown, latex, pencil
Stable Diffusion AI是当下一款强大的AI图片生成器。它不仅支持文本描述生成图片,还能以图生图,利用各种模型得到AI绘画作品,还能训练个人的图片模型,为大家提供的是最新2.2版本的下载方式,很多老司机懂的功能也将回归,欢迎各位来本站安装详细了解哦。
玩家留言
跟帖评论