
Концепция проекта
Цель проекта — исследовать, как великий художник Поль Гоген воспринимал бы современную визуальную составляющую современного мира: поп-культуру, бренды и медиа. Используя генеративную модель Stable Diffusion, я создала серию изображений, в которых узнаваемые образы (в частности, сцены из сериала «Друзья», Человек-паук, банка Coca-Cola, айфон, инфлюенсеры) соединяются с эстетикой постимпрессионизма и индивидуального стиля Гогена.

Примеры работ Поля Гогена, взятые для обучения
Жан Поль Гоген стремился к «утраченной подлинности» — к мифическому раю, где жизнь свободна от индустриализации и потребительства. Такой мир художник нашёл для себя на острове Таити.
В проекте «Гоген 2.0» этот нарратив обыгрывается через реалии современного общества: бренды, массовую культуру, цифровую зависимость. В основе концепции моего проекта — диалог между эпохами, где нейросеть становится медиумом, универсальным проводником между Гогеном и XXI веком.
Подготовка к процессу обучения генеративной нейросети Stable Diffusion
Я взяла картины Гогена и обрезала их до размера 512×512 (чем меньше размер — тем быстрее обучается модель). При обучении мне это было важно, так как ресурсы Google Colab ограничены. Когда обрезала картинки, то выделяла в них существенные части, так как 512×512 это квадрат и очевидно, что что-то не войдёт. Работы подобрала разные: портреты, натюрморты, пейзажи.

Загрузка и превью изображений
Сгенерированные промпты к изображениям из датасета
Для обучения необходимо сгенерировать подписи/промпты для изображений из моего датасета. На этом шаге я выбрала уникальный токен LAFOMIE (мой никнейм) для промптов. Важно было использовать уникальный промпт, который не ассоциируется с Гогеном, так как я хотела обучить нейросеть на изображениях, которые я подобрала сама.
Первая попытка обучения
Я взяла 30-35 картинок. Дообучила ее за «500 шагов» (это параметр обучения, от которого в основном зависит длительность обучения), чтобы посмотреть, работает ли обучение.
На примерах видно, что эта модель неплохо нарисовала темнокожую женщину и пейзажи с животными в стиле Гогена. А вот небоскребы (которых не было в датасете), получаются живописно, но совсем не в стиле художника.
Пример генерации изображения
In the style of LAFOMIE, woman portrait
Слева направо: In the style of LAFOMIE, cat playing In the style of LAFOMIE, horse, field
In the style of LAFOMIE, night, new york skyscrapers
Вторая попытка обучения и итоговый результат
Посмотрела на результаты и решила, что стоит попробовать расширить датасет, так как модель не очень удачно рисовала предметы, которых не было в картинках из датасета. Поэтому далее я подумала, что можно обучить модель подольше (1000 шагов) и запомнить промежуточные состояния модели, чтобы потом посмотреть на результаты для разных стадий обучений (20%, 40%, 60%, 80%, 100%).
В этот раз взяла около 50 картинок. Результат оказался гораздо лучше и качественнее. Более того, стиль становится виден даже на тех предметах, которых нет в датасете (банка колы, айфон, небоскребы и тд), что мне и требовалось получить для создания проекта, чтобы показать работы Поля Гогена ХХI века.
Параметры обучения
In the style of LAFOMIE, iphone 13 pro, on a table
Слева направо: In the style of LAFOMIE, Sunglasses on a magazine cover In the style of LAFOMIE, Celebration birthday table In the style of LAFOMIE, Skateboarder mid-jump
In the style of LAFOMIE, Woman holding a smartphone in a tropical forest
Слева направо: In the style of LAFOMIE, Pulp fiction In the style of LAFOMIE, spider man, jungle In the style of LAFOMIE, friends tv show
In the style of LAFOMIE, yandex delivery robots, city street
Слева направо: In the style of LAFOMIE, ocean, floating plastic bottles In the style of LAFOMIE, children playing with plastic waste In the style of LAFOMIE, realisitc, ocean, floating
In the style of LAFOMIE, virtual reality headset
Слева направо: In the style of LAFOMIE, Small delivery robots waiting at a traffic light In the style of LAFOMIE, night, new york skyscrapers In the style of LAFOMIE, subway commuters
Потом я решила сравнить результаты работы обученных моделей из разных попыток. Как мне кажется, модель, обученная на большем количестве изображений и за большее число шагов выдает результаты намного ближе к стилю и эстетике Гогена.
Слева направо: In the style of LAFOMIE, coca cola, bottle (модель на 500 шагов) In the style of LAFOMIE, coca cola, bottle (модель на 1000 шагов)
Еще я сравнила результаты обучения моделей на промежуточных шагах, чтобы отследить развитие модели и их соответствие со стилем Гогена. Получилось, что чем большее количество шагов обучения проходит модель, тем качественнее получается результат.
Пример генерации изображения из промежуточной версии
In the style of LAFOMIE, serov, girl with peaches 200, 400, 600, 800, 1000 шагов
В заключение хотелось бы отметить, что данный проект исследует не столько возможность сгенерировать изображения в стиле Гогена, сколько возможность изучить, как можно дообучить нейросеть на какой-то стиль/эстетику. Понять, какие в целом есть возможности и ограничения, чтобы в будущем применить в реальной жизни и на реальных проектах.
Все исходные изображения Поля Гогена были взяты с открытой лицензией семейства Creative Commons.