• «
  • 1
  • 2
  • »
  • Pages: 1/2     Go

1327522.jpg

Ridley

GF  2024-04-05 06:37
(空的)

[comfyui] sdxl画图风格迁移 (从PonyDiffusion到Animagine)


这篇帖子主要是针对新玩家或者SD1.5玩家,要讨论的内容也只是新瓶装旧酒罢了。


前情提要

承接上一个帖子,目前二次元sdxl社区的关注点在PonyDiffusion和Animagine上,这两个模型各自优点都相当突出,但又明显有不足之处。简单来说,理想的模型应该在人物、风格和构图三个方面都能满足需求,假设能给这些项目打分(~☆☆☆☆☆),那么截止到2024年4月4日,我心目中的结果是

PonyDiffusion:
[人物]: ☆☆☆
[风格]: ☆☆
[构图]: ☆☆☆☆☆

某PonyDiffusion衍生:
[人物]: ☆☆☆
[风格]: ☆☆☆
[构图]: ☆☆☆☆

Animagine:
[人物]: ☆☆☆☆☆
[风格]: ☆☆☆☆☆
[构图]: ☆☆

某Animagine衍生:
[人物]: ☆☆☆☆☆
[风格]: ☆☆☆☆
[构图]: ☆☆☆

NAI3:
[人物]: ☆☆☆
[风格]: ☆☆☆☆
[构图]: ☆☆☆☆

某SD1.5(仅作对比):
[人物]:
[风格]: ☆☆
[构图]:


鉴于社区目前依旧没有可靠的模型融合方案,目前唯一能做的就是通过一些工作流利用现有的模型来实现理想模型的出图效果,这也是这篇帖子尝试要做的。



风格迁移方法

要实现理想的出图效果,目前最可行的方案应该是输入理想构图(或者非AI图)再进行绘画风格迁移,在已有条件下,即是用PonyDiffusion文生图,再用Animagine进行重绘。


当然直接用高清修复或者图生图功能重绘也是可行的,但实际效果就像是蒙眼打台球,白球和彩球都不归你管;简单举个例子,你生成了一张复杂构图的图片,但当你用Animagine重绘时发现Animagine无法复现这个构图,重绘后得到一堆意义不明的色块,于是你调低了重绘幅度,然后又发现低重绘幅度下画风没有得到转变。因此,你需要一套更可靠的重绘方案来解决这一问题。


目前社区最常用的方案应该是Ipadapter和Controlnet(或许还有其他),其中Controlnet是最符合我们要求的,具体原理就不在这里赘述了,只要知道它能让模型在采样时对输入的图像进行更深度模仿就够了。


如果你是SDwebui用户并使用过controlnet,你应该知道这玩意狂吃显存,一旦串连多个controlnet,你的电脑可能马上就要爆了。而在sdxl的6G模型面前,如果你未能拥有12G以上显存,我只能推荐你放弃A1111的webui来尝试一下comfyui,因为它是真的不会爆。其实不论你有多少显存,我都推荐你原地立马现在就加入comfyui!一套现成的工作流可以节省你非常多的时间,你只需要动动手指改改提示词就能批量进行复杂任务,流畅无卡顿,也不用把图片贴来贴去了。
  旧webui使用体验:懒得折腾了就跑个文生图凑合看吧
  comfyui使用体验:懒得折腾了就跑个文生图+高清修复+图生图+局部修复+高清放大+.......

很多人其实一开始是嫌comfyui专业性太强学习成本太高不愿接触,一开始我也是这么认为的。但是我可以很负责任地告诉你,这玩意压根没有啥学习成本,你只要简单用过A1111的webui,那打开comfyui就能直接出图,动动手指就能抄一套别人现成的工作流,花一个下午就能从零制作一整套你在旧webui上能实现的最复杂的工作流。相信我,习惯了comfyui流畅便捷的使用体验就再也回不去既臃肿又有死机风险的旧webui了。


安利得差不多了就来讲讲我尝试风格迁移的大致流程吧,我不建议你上来就直接抄一整套流程,从默认的文生图模板开始一步步搭建工作流,这样既有成就感还能让你对工作流程更加熟稔,也是你入坑comfyui最决定性的一步。

(图片仅供参考)

1. 用模型A文生图得到图A(这一步其实就是默认模板,注意调节采样器参数)


2. 复制步骤1但换成模型B,将模型B的模型,正负条件和图A一同输入到串联的controlnet(我使用的controlnet sdxl模型来自于青龙圣者https://huggingface.co/bdsqlsz/qinglong_controlnet-lllite/tree/main)。我主要推荐lineart_anime和tile两层controlnet,其他控制网络比如softege, canny, depth等都是可以尝试加入的(注意选择对应预处理器),并设置权重和起始位置(通常建议让控制网络在采样末期终止让大模型有更多发挥空间,既结束位置<1.0)。如果你懒得测试就用我用脚指头测试出来的:[lineart_anime] 预处理器AnimeLineArtPreprocessor,分辨率1024,模型lineart_anime_denoise,权重1.0,起始0.0,结束0.75;[tile] 无预处理器,模型tile_anime_alpha,权重1.0,起始0.0,结束0.3。


3. 将图A进行VAE编码成latent输入模型B的采样器,将末层controlnet输出的正负条件传递给模型B的采样器(注意设置采样器参数,如果你选的sampler是收敛的,这一步因为是图生图所以步数可以调低点节省时间,降噪即重绘幅度建议0.6),生成图B。到了这里其实已经完成最基本的画风迁移了。


4. 将图B输入到impact节点-简易-面部细化(这一步其实就是adetailer面部修复,建议修一下),其他输入参考前面图生图采样器,bbox检测使用检测加载器选择face_yolo模型输入(同理也可以修手)。生成图C


5. (简单的课后作业将图C输入到SD放大并用controlnet tile_anime_beta控制,生成超高清图D



结果

模型A:AutismMixPony
模型B:AnimagineXL V3.1

情形1:模型A和模型B都能画出的角色,受害者:荧妹





情形2:使用lora后,模型A和模型B都能画出的角色,受害者:千织/雪之下雪乃







情形3:模型A画不出但模型B能画出的角色,受害者:芙宁娜





情形4:模型A能画出但模型B画不出的角色,受害者:momo






在没有对提示词进行引导的情况下,可以看到,Animagine模型完全无法自由且正确处理复杂构图,而Pony系模型不论你的prompt多自由都能正确展现人物空间关系,而风格迁移(Style Transfer)的结果已经很贴近我们的最终预期了([人物]x[风格]x[构图]),它在很好地继承Animagine的各种绘画风格和还原人物的同时保持构图不变。

当然要达到最佳的成图效果,需要模型A和模型B都尽可能画出目标人物,而AnimagineXL V3.1自带近5k个acg角色,因此更多的支持Pony系的lora模型也是不可或缺的。

值得注意的是,日常使用时,套用sdxl refiner方法做风格迁移或许更便捷。

结语

其实这篇帖子最主要目的是安利comfyui,用秋葉的comfyui整合包就行(https://www.bilibili.com/video/BV1Ew411776J),常用插件齐全,各种模型就直接用原本webui的链接过去。相信我真的很简单好用,不然你回来cue我。我没有直接把工作流甩给你,因为这鬼画符的玩意只有自己画过才能真正懂,越看别人的反而越劝退,亲自上手才觉得不过如此。


none.gif

1234miao

其实你去各个网站和论坛就可以看到。大部分人的要求只是能简单无脑的出图的就够了,一个NAI3就完全满足了。这也是各大网站发贴量最多的。在自己的领域自HIGH就可以了。不用安利,因为安利也没用。因为这是我在中国韩国美国日本所有论坛看到的现象。

none.gif

1234miao

另外我在说一下,现在不用在这几个XL模型上面太花功夫。因为现在几个模型有明显的短板且兼容性不足,虽说都是有几十万几百万的图片训练素材在做支撑。但也只是现在,真正的全面兼容模型会在以后推出,会比这些更好。而且现在的LORA,99%以上都是SD1.5时代的素材炒冷饭。只是增加了一个平台使用。等兼容性更强的出来会全部做一遍。而且就现在的东西来说,和一年前的2D世界区别不大,一些领域甚至更差。进化的好时代并没有完全来到。

1215742.jpg

三相猛冲

感谢博主的分享,非常有帮助

none.gif

黑阳

B4F  2024-04-05 14:03
(黑阳)
这个PonyDiffusion效果很好,但我用起来很难受。

1327522.jpg

Ridley

B5F  2024-04-05 15:00
(空的)

回 1楼(1234miao) 的帖子

与其说是安利,不如说是单纯想找些同好,因为我也是看了各种论坛帖子或者安利视频才入坑各种软件的,你翻我空间应该知道我玩得比较杂。另外我只是业务爱好者,这些东西对我而言仅仅是玩具,这么多软件平时也没有这么多精力去各自的论坛频道深耕,逛一逛泥潭已经足够了(别的论坛还真没有泥潭泛用)

所以我相信安利虽然作用微乎其微,但总能吸引到一小部分会对此感兴趣的玩家,如果能因此给论坛带来新活力,那也就达成目的了。

至于模型,当然未来总会有更优秀的,很多玩家早就在期盼SD3了,所以对现有模型的挖掘浅尝辄止也是很多玩家的共识,但是像风格迁移这种只是1.5时代玩烂的,我这篇帖子的东西并不需要花太多精力就能实现,简单的操作就能有更优秀的体验何乐而不为呢

1327522.jpg

Ridley

B6F  2024-04-05 15:12
(空的)

回 4楼(黑阳) 的帖子

其实Pony只要固定住正负几个风格词条,使用起来就跟其他模型完全一样了,就像我图里做的,单独把需要改的prompt拎出来,跟Animagine的共用

1215742.jpg

三相猛冲

回 5楼(Ridley) 的帖子

请问关注泥潭哪个板块是讨论ai绘画的呀,感谢。

27400.jpg

yizhiyang

B8F  2024-04-05 16:04
(塞ぐ目に堕ちる景色の様に 霞む私は誰のものでも無いの)
感谢分享 最近一直在玩PONY的衍生模型 看了这贴去试试风格迁移的工作流

1327522.jpg

Ridley

B9F  2024-04-05 16:58
(空的)

回 7楼(三相猛冲) 的帖子

yysy,没有专门讨论AI绘画的板块,AI交流板块把图片语音文字全混一起了

1215742.jpg

三相猛冲

回 9楼(Ridley) 的帖子

好的

a10.gif

Alois°

回 2楼(1234miao) 的帖子

有一说一, pony在NSFW的理解上至少是爆了大部分在无lora情况下的SD1.5的模的,sfw和nsfw都能胜任的模也不知道要等到猴年马月,比如哪个黑客哪天把nai3的模像当初nai2一样拖出来给大伙当底炉;现在我个人比较看好的是现在应该还在测试阶段的hassku,本身1.5时期就是综合得比较好的大炉,希望能基于anixl调整出比较好的nsfw理解

马上SD3虽然看上去挺香的,但sd团队明说了这个会是纯sfw模型,感觉nsfw上估计还是得等好一段时间才能有团队用消费级显卡做出东西分享给社区

1215742.jpg

三相猛冲

回 11楼(Alois°) 的帖子

novelai的basemodel基本是一年一大更,等今年11-12月吧

1215742.jpg

三相猛冲

回 11楼(Alois°) 的帖子

sdxl 对显卡要求更高吧,可能这就增加了社区的门槛。stable 3 这个模型不知道参数是不是更多,模型尺寸更大。感觉basemodel再大下去也不是个事情。

1327522.jpg

Ridley

B14F  2024-04-05 19:31
(空的)

回 11楼(Alois°) 的帖子

hassaku这个模型在构图上确实泛化性更强些,但画风不稳定到有时候风格迁移都救不回来,所以我是Autism和hassaku轮流用

a10.gif

Alois°

回 13楼(三相猛冲) 的帖子

看SD团队的说法是会提供800M到8B这个参数范围的模型供用户选择;估计出来之后再经过社区微调一下就还是8G消费级显卡能跑的水平了;

至于nai3,我感觉nai3要是能捣鼓出一个和civitai一样的在线lora训练,都不用更新底模,直接就可以成为二次元模型的神了直接一统二次元ai nsfw的江山

1215742.jpg

三相猛冲

回 15楼(Alois°) 的帖子

总感觉novelai的后台有串联lora,不然每次人物prompt都那么准,感觉光靠一个basemodel做不到

none.gif

1234miao


  
  



怎么说呢,有些东西,没了就是没了。比如GURO的的生态圈从零到有也是要时间的。如果都没有人做了,天天都在弄老H SD1.5分离出来的H姿势,天天全世界都在炒SD1.5的冷饭,也就是这样了。干嘛还要花时间再专研,吃点老本,等新一轮洗牌就行了。

none.gif

asnnn

感谢分享   

none.gif

db848106


坦白说...常规H这种东西人工产出白嫖就已经能满足了,毕竟每天也就拔3分钟。
至于出图这块,以前我就说了,模型太多,插件太多其实挺麻烦。比如Nai3这玩意,功能强是强,实际用是真的不好用。
她给我的感觉就是一个宇宙砸我脸上,我就是那个打字的猴子,只有极小概率才能打出莎士比亚 文集。
我甚至不知道他能出什么,能测试出来一个好提示词都是很困难的事。
至于抄作业...我都已经抄作业了为嘛不直接白嫖大佬的图....
和楼上那位1234大佬说的一样,目前只有跑guro图能让我开SD了。
接下来就看看年中的SD3有没有什么突破吧。
pony确实是目前泛用度很高的模型了,我最爱的小马大车直接能跑,不用加乱七八糟的lora.姿势都还挺对。

none.gif

asnnn

感谢分享   

none.gif

111

牛的!

1327522.jpg

Ridley

B22F  2024-04-06 17:57
(空的)

回 19楼(db848106) 的帖子

我不太认同所谓自己捣鼓AI不如白嫖别人的,这里的核心区别在于你是单纯来看图的还是来玩的。自己画跟看别人的不一样的点就在于可交互性,不同的操作就有不同的反馈,这其中的参与感和成就感是白嫖别人得不到的。

当然,精力的投入也是要考虑的因素,太多的投入势必会削减趣味性,我这篇帖子就是在传递这一信息:“如果你了解AI画图,那么现在有一个不需要太多精力就能提高正反馈的玩法。”这本质也是一种游戏攻略。

最后如果你是在顾忌“沉没成本”,那么可以说即便SD3发布了,这些游戏攻略也是可继承的,就像这篇帖子的东西也都是继承自SD1.5而已。

1215742.jpg

三相猛冲

回 22楼(Ridley) 的帖子

sd 1.5 时代积累的 512 x 768 数据集是不是要重新剪切成1024x1024的?

1327522.jpg

Ridley

B24F  2024-04-06 20:22
(空的)

回 23楼(三相猛冲) 的帖子

我暂时没有炼sdxl丹的打算,也没这必要,但你说的是对的

1215742.jpg

三相猛冲

回 24楼(Ridley) 的帖子

啊,那是因为你喜欢的角色可以用prompt拼出来还是社区有人训练过了

1327522.jpg

Ridley

B26F  2024-04-06 21:11
(空的)

回 25楼(三相猛冲) 的帖子

你说的两个都有,但最关键的还是sdxl大模型泛化能力足够强,社区里一些炼的比较糟糕的丹也能使用,就没有必要自己再去炼一个了

1215742.jpg

三相猛冲

回 26楼(Ridley) 的帖子

泛化强的是pony系的还是animagexl系的?

1327522.jpg

Ridley

B28F  2024-04-07 02:23
(空的)

回 27楼(三相猛冲) 的帖子

训练人物lora时通常会考虑的是人物衣着,表情和基本构图的泛化性,基于这几点对训练集进行调整。而你说的这两个模型在这几个方面都做得很好,或者说sdxl出图效果相比1.5时代更依赖于大模型而不是lora了,也就没有必要对人物lora进行更精细的训练了(当然训练底模还是重要的)

1215742.jpg

三相猛冲

回 28楼(Ridley) 的帖子

原来如此,感谢说明

none.gif

shadow

B30F  2024-04-28 18:25
(南柯一梦)
文生图会了,后续的看着有点晕
  • «
  • 1
  • 2
  • »
  • Pages: 1/2     Go