Обучение генеративной нейросети под авторский стиль на HSE Design

У меня есть некоторые моральные противоречия, связанные с использованием генеративного ИИ. Я постарался пойти наиболее этичным, на мой взгляд, путём и обучил модель на своих рисунках.

Идея проекта

Мне было интересно увидеть, какие черты моего стиля останутся наиболее выраженными после обучения. Я также подумал, что это поможет мне выявить свои слабые стороны, поскольку нейросеть будет повторять мои частые ошибки. Я вручную отобрал относительно новые и качественные изображения и подогнал их под нужный размер. В итоге получилось всего 36 штук. Из-за небольшого количества подходящих изображений в датасет попали картинки, которые я намеренно рисовал в разных стилях. Некоторые из них — чистые и доработанные работы, другие — незавершённые скетчи, а третьи я создавал на одном слое кистью, которая меняет цвет с каждым штрихом.

Примеры исходных изображений

Исходный размер 4404x1101

Как можно увидеть, исходные картинки были очень разнообразны. Я хотел увидеть именно усредненный стиль всего, что я могу нарисовать.

Исходный размер 2739x1370

Процесс обучения

Ссылка на ноутбук с обучением.

Поскольку я редко рисую что-то простое, вроде аниме-девочек на белом фоне, у BLIP, который генерирует подписи для изображений, возникли трудности. Некоторые описания совсем не подходили, а некоторые были просто смешными. Я решил, что оставлю так и посмотрю, что будет.

Исходный размер 2500x1250

С обучением не возникло никаких проблем: я использовал рекомендованный код в kaggle, с самыми простыми параметрами, помолился и начал процесс. Обучение длилось примерно 5часов.

Результаты обучения

Исходный размер 2048x1024

Результаты, на мой взгляд, во многом напоминают мой стиль рисования. Здесь присутствуют небрежные линии, окрашенные в темные и насыщенные версии оригинальных цветов. Тени с фиолетовым оттенком (характерный прием ленивого цифрового художника: тени, выполненные фиолетовым цветом с эффектом Multiply, почти всегда смотрятся достойно на простых рисунках), а также текстуры, созданные с помощью специальных кистей. Угадываются типичные для моих рисунков черты лица и те же анатомические неточности, которые я часто допускаю.

Однако пайплайн diffusers, который я освоил, имеет свои ограничения. Он не слишком хорошо реагировал на детальные промпты — скорее всего из-за простоты подписей от BLIP. Так же на Hugging Face практически нет LoRA-моделей, которые соответствовали бы моим предпочтениям и позволили бы мне улучшить результаты.

Исходный размер 2048x1024

Смена маршрута

У меня возникло две проблемы: Во-первых, я привык работать с ComfyUI, но попытки использовать свою LoRA и SDXL в этой среде заняли у меня почти целый день. Я устанавливал дополнительные модули, редактировал их код, переустанавливал Python — но ничего не помогло. Оказалось, что перенести пайплайн из diffusers полностью практически невозможно.

Во-вторых, SDXL, как выяснилось, не совсем подходит для широкого спектра цифрового искусства. Он лучше всего справляется с реализмом, неплохо работает с детализированным аниме и реалистичными рисунками, но для других стилей его возможности ограничены.

Исходный размер 3072x1024

Изображения от Pony XL 6, найденные на CivitAI. Художники, чей стиль используется: sakuemonq, superiorfox, InCase.

Для создания не-аниме изображений в стиле цифрового арта чаще всего используют Pony Diffusion. Его ключевая особенность заключается в том, что он обучался на данных с booru-сайтов, где художники и их поклонники публикуют свои работы. Благодаря этому Pony Diffusion поддерживает огромное количество стилей, имитирует разный уровень мастерства в рисовании и работает с простыми, тегоподобными промптами. Для него существует множество LoRA-моделей, которые воспроизводят стили современных интернет-художников. Несколько примеров представлены выше.

Обучение лоры для Pony Diffusion

Я немного изменил свой датасет, добавил пару рисунков пони и фурри-персонажей (все-таки Pony позволяет это делать, грех упускать возможность). Для создания подписей и обучения я использовал ноутбуки от hollowstrawberry.

Исходный размер 2500x1250

Подписи были сгенерированы под стандарты Pony Diffusion в виде тегов, без слов для активации, так как в ComfyUI LoRA загружается через отдельную ноду. Это обучение прошло намного быстрее, чем первое.

Результаты обучения… 2!

С новой LoRA и Pony Diffusion тоже пришлось повозиться. Внизу приведены примеры генераций, которые я считаю неудачными.

Справа — результат первой попытки обучения (10 эпох). Хотя некоторые особенности моего стиля сохранились, модель упорно генерировала чиби-персонажей, которых я никогда не рисую.

В середине — результат второй попытки обучения (20 эпох). Стиль меня вполне устраивал, но на человека результат был мало похож. Тогда я вспомнил, что в датасете изображения с животными, вероятно, имеют общие теги с изображениями людей (например, теги вроде 1girl, 1boy, указывающие на количество персонажей). Чтобы исправить это, я добавил в начало негативного промпта теги 'furry' и 'pony'.

Исходный размер 3072x1024

Еще одна особенность Pony Diffusion — возможность использовать теги, связанные с «оценками». Поскольку модель обучалась на данных из социальных сетей для художников, в процессе обучения сохранилась информация о рейтингах изображений. Очевидно, что на таких платформах более талантливые художники получают более высокие оценки, поэтому добавление тега оценки в промпт значительно влияет на результат.

Например, справа на картинке выше проблема возникла из-за того, что я добавил в промпт тег score_9. Я стараюсь быть реалистичным: я бы просто не смог нарисовать что-то настолько качественное.

Исходный размер 3072x1024

Тестирование тегов с оценками дало мне интересные результаты. Оказалось, что на сайтах с десятибалльной системой оценки мои работы, скорее всего, получали бы в среднем 7 баллов. Генерации с оценками 9 и <4 совершенно не похожи на мои рисунки, тогда как 7 всегда оказывается очень близко к моему стилю.

Я начал экспериментировать с добавлением других LoRA-моделей. В частности, я использовал Detail Slider и стиль художника InCase. У InCase огромное портфолио, и его LoRA настолько хорошо обучена, что многие считают, что она улучшает результат даже в тех случаях, когда его художественный стиль не требуется. Когда я использую ComfyUI, нода с загрузкой этой модели служит практически талисманом удачи — ее сила стоит всего на 0.1 — 0.2, но результаты волшебным образом улучшаются.

Исходный размер 1024x1024

Сгенерированный автопортрет. Моя LoRA + LoRA InCase + Detail Slider

В целом, то, что сохранилось в LoRA для SDXL, сохранилось и здесь. Однако в ComfyUI генерации выглядят более сглаженными, и я не уверен, связано ли это с особенностями Pony Diffusion или с разницей в параметрах.

Мне показалось интересным, что LoRA унаследовала мою нелюбовь к прорисовке мелких деталей. Если добавить к моей LoRA модель, заточенную на детализацию, и выставить её на высокую силу, в генерациях появляются случайные штрихи в непонятных местах, а не аккуратные и продуманные детали. Даже веснушки в результатах выглядят так, как я их обычно рисую — просто кистью с шумом.

Исходный размер 1702x731

Пример пайплайна в ComfyUI.

Итоговая серия изображений

Исходный размер 3072x1024

Так как это мой стиль, я сгенерировал своих персонажей.

Исходный размер 3072x1024

Исходный размер 2048x1024

prompt: 1girl, strawberry blonde hair, freckles, big warm coat, slavic clothing, purple eyes, dark background, dynamic pose, score_9, score_8

Потом я подумал, что могу спроектировать свой художественный прогресс в будущем. Для этого я смешал свою LoRA с LoRA стиля моего любимого современного диджитал-художника: @mossacannibalis. Я часто смотрю на его рисунки и пытаюсь повторить его стиль, но это редко выходит хорошо. Результаты генераций получились достаточно интересными. Я думаю, мне можно к такому стремится.

Исходный размер 3072x1024

Автопортреты: моя LoRA + @mossacannibalis LoRA

Исходный размер 2048x1024

моя LoRA + @mossacannibalis LoRA. prompt: 1girl, goblin woman, glasses, lab coat, yellow hair, score_9, score_8

Исходный размер 3072x1024

LoRa for SDXL & diffusers. LoRA for Pony Diffusion v6.

В проекте использованы: Stable Diffusion XL 1.0 PonyDiffusion V6 Deepseek — форматирование, структирирование текста.