60分钟速通LORA训练！绝对是你看过最好懂的AI绘画模型训练教程！StableDiffusion超详细训练原理讲解+实操教学，LORA参数详解与训练集处理技巧

作者: Nenly同学分类: 设计·创意发布时间: 2024-01-09 12:16:40 浏览:370586 次

蛮蛮の利特:
练物品那里，我来分享一下我经验吧，感觉这里UP主练的过拟合了，确实也是有原因的，填写tag的那个地方，应该写一个触发词，比如说小金人，然后不要对物品本身进行描述，但是可以要描述物品的分类和构图，比如说一个奖杯、静物nohuman，然后换的背景也有点问题，好让它能够符合光影，比如第一个正光的小金人，就可以直接白色背景，而第二个应该是右亮左暗的渐变的灰色基调背景，第一排最右边应该用暗红色基调背景以此类推，就PS里拖个渐变的事，背景可以全部用“纯色背景”这个tag来进行描述。另外，需要在tag里面加入物品的视角描述，最后再加几张图是UP主手捧奖杯的，让AI知道这玩意儿是个奖杯，最好用单独的文件夹，加上单独的repeat数，然后再进行后续调整。不过我是不建议使用Lora去做物品上身的，这玩意儿，我们小团队至少研究了半年多，网上也有不少的人在研究，曾经也在B站上火过不少视频，但现在基本都销声匿迹了，问题就出在lora自带的泛化性，要么就过拟合，完全上不了身，换不了模特，要么就细节上会出现些许丢失，而电商环境的话，他们是连文理都得要求一模一样，99.99%相似他们都是不能接受的。。

【回复】回复 @飞翔的小糍粑 :另外，你如果想要百分百还原，那我我建议还是去学ps，ai的底层逻辑就是随机的发散的，搞百分百还原，真不如直接p，我们现在也是用comfyui实时生成加ps，相比练模型，简直又快又好[妙啊]
【回复】回复 @飞翔的小糍粑 :人物其实是ok的，尤其二次元，略微过拟合一些基本还原度就够了，哪怕再有细节上的一些小瑕疵，也可以简单P图，三次元如果是给本人练会难一些，本人对自己认知清晰，细节要求也高，难点但处理好也还是可以。但物品就很蛋疼了，不过拟合的细节还原度不够，甲方对细节要求又极高，过拟合的模型又实现不了样品上身，样品换场景，典型的既要又要，很难搞。物品Lora我们现在用下来最适合的是拿来搞辅助设计。
【回复】回复 @Nenly同学 :也不算专业，搞了些业余兼职而已，三言两语也讲不清楚，只能说分享下思路，期待新视频
Nenly同学:
这期视频是我做过最长的一期内容了，60分钟，脚本一共两万三千多个字，光后期就做了大半个月。看在这个份儿上，大家收藏起来别吃灰，一定一定一定要多看几遍[tv_大哭] （一键三连帮助Up主生发护肝 [热词系列_三连][热词系列_三连][热词系列_三连] 和视频里说的一样，在理清了一些基本流程和思路以后，LoRA训练在方法上一点儿也不困难。但参数没有唯一正确的答案，训练集也要看碟下菜，它真正难的地方，就在于训练过程中的一次次尝试和调整。这个视频，虽然没有讲很多深奥的知识，但尽可能地帮助你把LoRA训练过程中所涉及到的方方面面都展开做了一个梳理。我建议你可以把它当做一本小小的“百科全书”，在训练的过程里随时对照翻阅。碰到问题了可以看下面的章节分段和进度条来快速找到你需要的内容。看完这个视频，你应该就能很清楚地找到自己训练的“方向”。只要不迷茫，那就一定可以炼出让自己满意的模型的 [tv_鼓掌] 还有很多比较琐碎的参数是视频里没来得及细讲的，但我都整理了一份放在了简介区里的资料文档里。里面也有Kohya训练器及其他处理训练集所需插件的完整安装流程与一些其他注意事项，强烈建议和视频搭配食用 [tv_流鼻血] 就说这么多辣，祝大家学习愉快[热词表情_世萌双冠]

【回复】感谢菩萨，受我一拜，已经超级关注＋三连支持[星星眼][星星眼]
【回复】赛博菩萨，受我一拜!我等你lora视频好久了，这下不知道要记多少知识点了，十分感谢!给您充电!
lordsidious:
再提供一个思路，photoshop可以联合使用。把人物直接扣下来，换不同的纯色背景。提示词里加入相应的背景颜色，这样就不用考虑背景的那些花花点点的影响了。

【回复】[doge] 可以看下这期，中间介绍的RemBg是内嵌在后期处理里面的，可以批量操作：BV1oB4y1R7Ms
【回复】回复 @obilibili :最近自己在练一些mmd的人物模型，为了免去抠除的麻烦，直接简单粗暴的把背景调成白色，然后转动视角，然后让模型做出各种动作最后截图就行，然后把截图的图片扔进去炼
【回复】回复 @lordsidious :自从用了赛博丹炉感觉最费时间的就是高质量图片收集和ps处理
僵夕夕:
引用我叔叔的一些训练习惯，给大家一些建议 1.训练二次元人物图片30张是最低起步数量，而绝非最好，虽然有些角色图片少导致有单图炼丹的，但对于学习来说，越多越好准没错，实际上用几百张图训练的人物和几十张训练的跑图测测就能感觉到。 2.如果你不准备让ai学习特定画风，而希望模型能泛化各种画风包括真人图片，那么尽量少用官方图片，或者说，各种画风的图片越杂越好。 3.训练步数是图片数量 x repeat(文件夹前的那个数字) x epoch / batch size，如果你单文件夹训练，1re10ep和10re1ep是没啥区别的，文件夹前的数字是当你同时训练多个概念时，通过re来控制不同文件夹内图片的比重 4.反推的tag是用来协助训练底膜“你尽量使用这些元素去还原素材图片”，所以各种图片特征会被吸收进对应tag，比如凝光的chinese clothes，所以很多时候，如果你只训练凝光一件衣服，打个ningguang的tag意义不大（当然nai模型本身认识凝光，所以还是有些帮助），如果是底膜不认识的角色，大体上1girl就已经吸收走了角色的绝大特征，这也是很多模型设置了触发词，但其实屁用没有，当你20张图都同时出现一个你自创的tag的时候，他的意义是吸收那些其他tag没有吸收到的元素，比如一些没有被明确反推出来的画风…… 只看了lora训练部分，对于图片数量这个意见比较大，因为去年2,3月份有一些up主鼓吹单图炼丹，导致c站垃圾模型较多……不过好处是因为这个原因，逼着一帮人自己炼丹……

【回复】我能大概理解LORA标签环节的反人性，但是想不到什么解决办法。我纠结的点在我不知道它到底把哪些特征吸收进了哪些标签，比如你举的例子，是不是该直接把1girl删掉就好了？我苦恼的情况是这样的：比如我的角色图虎口有颗痣，而因为角度原因，可能一百张里就两张图能看到，而很明显的是，丹炉自己识别的图片标签并没有这颗痣的tag，那我又该怎么让它知道这个位置的痣是个必要特征？
【回复】回复 @锤子郭郭 : ai会去学习你所有素材中“共通”的特征，然后将这些特征学习到不同的tag里，当然有时会学到tag组合里。我不是建筑专业的，不太理解你说的竖向线条这个概念，但是如果你的素材反推中有建筑物之类的tag，那大概率这个竖向线条是被“建筑物”这个概念吸收了。就好比你在一个欧美人的模型中训练一百张亚洲人的照片，就算加个“yazhouren”这种ai不理解的tag，但是最后你只打1girl,1boy的时候他出的图也会是亚洲人，而yazhouren这个tag学的则是你100张图片中共通且没有被tag识别的东西，比如拍照风格质感，人物姿势构图这些
【回复】回复 @永远不攻喵某人 : 几个重点，把图片中的人物特征都要推理出来，把涉及构图和动作的提示词都删了，写一个其他的触发词，当然你也可以保留某个比较重要的动作提示词作为触发，然后两个建议，一个是多方一些其他不同动作的图片进去做正则，还有一个就是，如果这个动作本身不是特殊到底模无法理解的，那尽量减少dim，也就是减少lora携带的信息量，更多的靠底模自己的能力去还原。
龙大帅i:
准备看，希望不是为了把时长压缩到1个小时而删减了很多内容，2个小时我都愿意看

【回复】太长会导致完播率低，希望能多个视频
【回复】回复 @风见林 :阅读理解有待提高
【回复】一个小时的视频发六个，一个视频十分钟，明显十几秒的完播率更优秀
你不管嘛:
从0跟Nenly老师学习SD 所有视频看了又看真的是我觉得B站上讲的最好精彩的视频后期和图文搭配结合比大部分花钱的都讲的好感谢~ 最后想说一句 Nenly老师后面能学学你的视频剪辑特效教程么

【回复】他的主页里有付费的pr剪辑课程
墨杯杯:
我愿意为这样的知识付费哪怕up主免费发布出来，观看量也不理想，但是我相信金子总会发光的，只有玩过ai跑图的人才知道这个对小白有多大的帮助支持up！[tv_点赞][tv_点赞]

【回复】又不是没开充电，愿意付费就多充点
【回复】回复 @墨杯杯 :好的谢谢你的解答，让我对这方面有了一定了解
【回复】回复 @一只猪啊喂 : AIGC 我现在就在从事这方面的工作，如果你想了解，你搜索AIGC 就能这一行业了
Dubai终于有硬币改名了:
视频简介: 大概是B站（或者全网）第一个系统的AI绘图模型训练教学视频系列！“炼”出一个专属于你的Stable Diffusion模型，看完这几期视频就够了！ 📕教学辅导书链接见视频简介 Kohya训练器安装全流程指引：链接见视频简介 🔗随堂练习素材下载度盘：链接见视频简介 bilibiliAI视频总结： LORA训练模型的原理和使用方法。LORA是一种低质适应模型，可以在保证质量的同时减少模型训练的参数量和显存需求。视频详细讲解了LORA的训练原理、训练工具的安装配置方法、基本训练流程、参数调节思路、训练集清洗处理方式以及实践应用思路。同时，还介绍了其他微调手段的入门操作，帮助初学者更好地掌握模型训练的方法。

【回复】度盘说验证码错误提取不出来了
一粒小闪电:
哥，能不能讲讲controlnet的训练啊，最近导师让我做这个[笑哭]

【回复】关注的一位Up主做了一个ControlNet的训练器，可以看看这个视频：BV1gi4y1Y7Nd
【回复】回复 @Nenly同学 :谢了哥[脱单doge]
【回复】B站有讲这个的，可以搜一下
代理主角:
作为一个算法工程师表示有很多原理解释是错的，不过结论基本都是对的，总之感谢分享[打call]

【回复】回复 @九州光明剑客 : 其实没有啥团队，就是一个人闷头做的[捂眼] 这期视频本意还是想帮助现在AI绘画社区里对LoRA制作感兴趣的朋友快速上手实操应用，并非针对技术实现层面原理的深入讲解。关于低秩矩阵这块儿的解释，我本意是想用初学者都能看懂的方式类比出实际情况（角落有标注说明叠Buff），如果在学术层面上有不严谨的地方还请多多包涵[抱拳]
【回复】回复 @Nenly同学 :比如你有时候会混淆过拟合和收敛性的概念，这是两个完全不同的概念[喜极而泣]原谅我工作忙实在没时间再回去翻了，见谅
【回复】大佬好！感谢指正，不过可不可以再麻烦您一下，可以具体指点下错误的部分吗？我回头收集整理一下发置顶和大家周知
black_ce:
有几个坑和大家解释一下 ①安装完前面三个前置，kohya.ss也下载好了，打开setup之后没反应了，那就把前面三个前置全卸了，再看看电脑里是不是还安装了其他版本的python，有也一起卸了，然后重启再次安装，记得勾上视频里安装python的那个选项（5:25） ②按了1之后下载慢，记得挂梯子，我选的台湾节点，开全局模式很快就下载好了 ③中文启动之后界面还是英文，把那个汉化补丁后缀.bat改成.txt，打开之后第三行改成call gui.bat --language zh-CN --inbrowser --headless，然后再改回.bat就可以了

【回复】求问 mac如何使用啊，真的巨折磨
【回复】第三点我补充下！检查了一下是误传了之前我自用的一版bat上来了，刚刚重新传了正确的命令，后面的朋友下最新网盘文件即可解决~
【回复】而你我的朋友，你是真正的英雄
rayer狸尔:
对lora有点基础的了解，但是一直想不明白两件事[笑哭]。给训练图片打标到底是多打好还是少打好。在网上很多up对这个说法都不一样。以人物lora为例，多打标的话，出图就非常依赖提示词标签，多lora同时使用经常会因为提示词互相产生干扰，而且如果使用一个lora需要大量提示词的话，感觉并不是一个好的lora。[酸了] 好处是这样训练的模型，可以像抽积木一样删改细节，每个提示词对应细节保留的更好，比如纹身，拟合的很满意。[给心心] 少打标的话，在细节上就会有很多丢失，比如会出现纹身消失或者完全不拟合，这种lora因为没有给上标签，希望ai学习的地方没有学习，很多东西也固定了修改不了了，lora出炉后才能发现问题，我还没实践出解决办法。好处是但是出图整体感觉确实更好，几个提示词就可以出图了，和其他lora冲突的情况我遇到的更少，更容易调和。[脱单doge][脱单doge] 目前我出图对细节需求高，使用多打标签的lora，但是经常被很多lora互相共享提示词的行为苦不堪言。想问有没有给每个lora单独赋予提示词的插件。或者能对少标签的lora赋予细节的办法。[脱单doge][保佑] 还有就是触发词的作用我一直不太明白。我也去c站上下载用过其他人分享的模型，有些仅给了一个触发词就有非常好的效果，有些没有识别到训练标签，但是仅加上lora就可以有非常好的效果，还有就是多触发词的，这种lora单独使用效果最好。纯属好奇，触发词的作用或者原理是什么，什么情况下使用多少触发词可以达到一个好的效果。[灵魂出窍] 我不是专业人士，只是一个ai技术爱好者，以上都是自己出图遇到的，可能对sd了解的地方有很多错误，望大佬们解答。[保佑][保佑] [2233·群星闪耀时收藏集表情包_贴贴][2233·群星闪耀时收藏集表情包_贴贴][2233·群星闪耀时收藏集表情包_贴贴]

【回复】我觉得多打标少打标这个得看你的目标是怎么样的，如果你能接受多打标带来的模块化的优势，就多打标，如果你想让模型泛用性好，就少打标，我认为并没有孰优孰劣，选择对自己有利的就好了。我个人习惯是有些图片会少打标，有些会多打标，让ai记住这个人物最核心的特征，如果图片比较复杂或者有些独特的装饰/换装之类的，会给这些特殊的图片多打标对于你说到的有些细节ai容易漏掉或者画错，或者是你想给同一个人物换不同的服饰（换皮）但是又不想单独练一个新的lora，可以了解下up视频里没详细说的正则化图像，大概就可以解决你这个问题
【回复】我觉得你可以看看视频里的“训练集清洗”这个部分，你的问题好像都能解决，下面有章节跳转功能～
iLab的AIGC笔记:
老师，指正一个问题，29:36讲到Dim对Lora体积影响，这个Lora体积跟SD大模型的版本（1.5，2.0，SDXL）是有关系的，DIM128=144MB实际上是SD1.5的，如果训练的是SDXL版本的模型，那么这个Lora体积将是650MB，建议标注一下。[2024]

【回复】收到！前半段讨论底模的时候就提到了，这节课以1.5体系的为主，XL确实体积会大很多，Up一下让其他朋友看到~
玩AI的风吟:
想学怎么训练XL的lora，UP能不能出一期XL的教程[大哭]

【回复】大家要不直接进主页看风吟大佬的分享吧[脱单doge]
【回复】回复 @P-Aseer : 点击，进入，开学！
羡慕001:
老实讲，作为一个B站白嫖党，如果不一键三连我真的良心有愧。。。加油！

雾灯遮不住:
打开setup.bat 的时候显示系统无法找到指定路径是什么问题呀，求大神指点[惊讶]

【回复】回复 @J_T_Kirk : 我第一次安装没勾选，有这个问题第二次勾选了，这个问题就消失了
【回复】回复 @freedomzs2020 :勾选了啊，还是没解决
【回复】解决了吗，我也是啊[笑哭]
CharlieDreemur:
我的经验是： 1. sdxl训lora不见得比sd1.5打磨这么久的底模好，至少目前来说我用sd1.5的lora效果要大于sdxl 2. 分辨率不见得越高越好（存疑），个人尝试同一个训练集，一个降低到512x768分辨率，一个71024*1536分辨率，小的反而效果很好，尤其是低分辨率出图时 3. reg（正则化）不见得用了就好，目前我的lora不用reg的效果要好于用reg的，有可能是因为我的reg的质量比较差导致的 4. 以及，为了达到“脸部像”这个目的，有时稍微过拟合+lora block weight(分层)效果要好于欠拟合的lora

【回复】回复 @乌桃厚乳LL :不试一试怎么知道嘛
【回复】我这还想训练个XL的lora，还没施法就被打断了[笑哭]
【回复】看这里https://github.com/hako-mikan/sd-webui-lora-block-weight
浮生又一日:
求教各位大佬：小白一个，B站上有没有靠谱的SD从入门开始的视频啊，好多视频感觉挺好的，但是全是一堆堆的专业名词...求一个链接

【回复】回复 @浮生又一日 :【B站第一套系统的AI绘画课！零基础学会Stable Diffusion，这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略-哔哩哔哩】 https://b23.tv/GTgVJyd
【回复】你就看他教程，从头看，我就是
【回复】我靠，nenly的视频全网说第二，谁敢说第一
叫我波一就好:
中文补丁mac安装不了啊啊啊啊啊赛博菩萨我求求你了适配一下mac用户吧啊啊啊啊啊绷不住了这几天一直在想办法在Mac上炼丹，但是出现的问题完全没办法解决呜呜呜呜呜

【回复】Mac我还在测，留一下文档或者我动态，测完了应该会告诉大伙儿的~
【回复】回复 @六个笋 : 终端启动炼丹炉的时候空格+--language zh-CN就可以了
【回复】回复 @bannylon7 :您好，是在setup后面加这个嘛？我都没找到up说的汉化包在哪里

AI 模型教程 StableDiffusion lora训练零基础入门 AI绘画模型训练 NovelAI 这就是AIGC

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！