Original size 736x920

Обучение генеративной модели Stable Diffusion для визуала к мини-альбому

PROTECT STATUS: not protected
10

Концепция

В мае я планирую выпустить мини-альбом, к которому необходимо проработать визуал. Самая сложная часть — буклет с текстами альбома для CD-диска. Обычно буклет состоит из 8 или 16 страниц с картинками в атмосфере альбома. Поэтому в качестве проекта я решил сгенерировать визуальные материалы для физических изданий — мне необходимы слегка абстрактные рисунки акварелью в туманном, мечтательном стиле с ключевыми образами альбома.

В поддержку этого альбома уже создана метавселенная, с которой можно ознакомиться по ссылке выше. Важным элементом в разработке буклета было сохранять уже выработанную стилистику, при этом с помощью буклета найти новую грань этой эстетики.

Исходные изображения

В качестве датасета я использовал свой мудборд, собранный на Pinterest. Этот же мудборд я использовал при создании метавселенной, что при генерации помогло мне оставаться в единой стилистике во всех материалах к альбому.

big
Original size 1536x1152

Большинство фотографий в мудборде — абстрактные рисунки акварелью, будто покрытые туманом. Именно этого я и хотел достичь в сгенерированных изображениях.

Процесс обучения модели и генерации иллюстраций

В первую очередь я выгрузил мудборд, состоящий из 22 фотографий, в блокнот с кодом.

Original size 1848x687

С использованием модели LoRA были направлены все референсы и промпты для анализа и обработки данных.

Original size 1443x876

После окончания тренировки модели я начал генерацию визуальных материалов для альбома.

Original size 2911x977

Итоговая серия изображений

В буклете альбома я хотел комбинировать более абстрактные и бесформенные рисунки с конкретными образами. Фотографии без конкретных объектов могут быть как отдельными иллюстрациями, так и фоном для текстов песен.

Мне понравилось, что я могу задавать характер рисунка через код — через цвет, размытость кадра, крупность плана я сделал две версии иллюстрации ягнёнка.

С помощью повторения одного и того же промпта я сделал по несколько версий одинаковых абстракций. Это может работать как единый разворот с текстом песни, так и на разных разворотах как объединяющий элемент визуальной эстетики.

В отличие от ситуации с ягнёнком, где я могу выбрать более понравившуюся версию рисунка, тут мне хотелось поработать с разными иллюстрациями одного образа. Эти фото могут находится на разных концах буклета.

Я решил попробовать сделать более яркие изображения — как конкретный образ в виде сакуры, так и абстрактный рисунок.

Ещё две абстракции — рисунок справа выглядит в точности как мудборд и скорее всего будет первой фотографией в буклете.

А вот моя попытка сделать пару «конкретный образ» — «абстрактная версия образа» на примере розового кварца.

Итог

У меня получилось сделать изображения для буклета CD-диска — я очень удивлён результату, ведь рисунки правда похожи на мой мудборд. Модель смогла сгенерировать достаточное количество изображений в едином консистентном стиле. Интересно, что у нейросети лучше всего получалось делать именно абстрактные изображения, так как она очень хорошо отзывалась на промпт по цветовой гамме и настроению кадра.

Инструменты, использованные для реализации проекта:

Pinterest — сбор фотографий для датасета

Stable Diffusion — обучение генеративной нейросети под свой стиль

Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт

Google Colab — выполнение кода и генераций

Обучение генеративной модели Stable Diffusion для визуала к мини-альбому
10
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more