Обучение генеративной нейросети для рисования картин в стиле Джорджа Кондо на HSE Design

Концепция

Перед нами встала задача обучить генеративную нейросеть Stable Diffusion для рисования картин в каком-то специфическом стиле (определённого художника/иллюстратора). Я выбрала стиль художника Джорджа Кондо. Его работы отличаются гротескными, экспрессионистскими и карикатурными образами, которые сочетают элементы классической живописи и кубизма. Кондо известен своими уникальными деформациями лиц и фигур, что придаёт его искусству узнаваемую и выразительную эстетику.

Цель проекта обучить генеративную нейросеть Stable Diffusion на примере картин Джорджа Кондо генерировать изображения в его стиле.

Для обучения использовался датасет из 75 изображений, собранных из открытых источников. Изображения были приведены к квадратному формату (1:1) для соответствия требованиям модели обучения.

Итоговая серия изображений

После обучения нейросети с использованием DreamBooth LoRA были получены несколько изображений, которые воспроизводят основные характеристики стиля Кондо. Эти работы демонстрируют гипертрофированные лица, карикатурные пропорции и характерную живописную текстуру.

Разбор характеристик некоторых изображений

Гротескные портреты

-Изображения демонстрируют искажение пропорций, типичное для стиля Кондо.

-Переданы специфические детали: преувеличенные носы, широко раскрытые глаза, экспрессивные выражения лиц.

-Сохранён эффект живописной фактуры, что делает изображения схожими с оригинальными работами художника.

Абсурдные сценические композиции

-Присутствуют элементы сюрреализма: персонажи в необычных позах и с неестественными телесными пропорциями.

-Используются насыщенные цвета, создающие эффект экспрессивной картины.

Мрачные экспрессионистские работы

— Некоторые изображения выполнены в тёмной гамме, подчёркивая эмоциональный контраст.

— Деформированные лица создают тревожную атмосферу, что соответствует стилю Кондо.

Как результаты соответствуют первоначальной идее

— Нейросеть смогла передать ключевые элементы стиля Кондо: гротеск, карикатурность, экспрессивные эмоции, геометрические фигуры, деформация.

— Сохранена техника визуального шума, придающая работам художественный эффект.

— Модель генерировала изображения с разными вариациями картин: от абстрактных композиций до почти реалистичных портретов.

— Визуальный стиль напоминает масло или акрил, что характерно для Кондо.

Описание процесса обучения и ноутбук с кодом

https://drive.google.com/drive/folders/1yrxKiqRmv2r-B4CpUfCr24aa42N97Lq4?usp=sharing

Сначала загружаем и проверяем все необходимое: — Проверяем графический процессор; — Обновляем библиотеки; — Устанавливаем последнюю версию библиотеки diffusers — Загружаем специальный обучающий скрипт с github.

Загружаем исходные картинки с компьютера

Исходный размер 1290x684

Проверяем правильно ли загрузились картинки

Исходный размер 2650x1128

Загружаем BLIP для автоматической подписи изображений, получаем исходные промты для обучения модели

Добавляем идентификатор концептуального токена к каждому заголовку, который будет ссылаться на наш конкретный стиль

Исходный размер 1434x374

Готовимся к обучению: — Конфигурируем скрипт accelerate; — Создаем токен на сайте Hugging Face для записи обученной модели

Запускаем процесс обучения: — Устанавливаем библиотеку datasets; — Запускаем команды accelerate для обучения модели.

С помощью кода автоматически сохраняем наш код на huggingface hub — Получаем ссылку на сохраненную модель

Генерируем изображения с помощью обученной модели: — Загружаем исходную модель stable-diffusion-xl и к этой модели присоединяем веса лоры (lora_weights), указываем id нашего репозитория; — Все, мы можем генерировать картинки с использованием стиля Джорджа Кондо.

Заключение

Этот проект демонстрирует возможности обучения генеративных нейросетей для адаптации уникальных художественных стилей. Нейросеть успешно воспроизвела характерные черты Джорджа Кондо, создавая картинки с узнаваемыми элементами его творчества. Итоговые изображения показывают, как искусственный интеллект может служить инструментом для исследования и переосмысления визуального искусства.