Original size 559x793
The project is taking part in the competition

Концепция проекта

Цель проекта — исследовать, как великий художник Поль Гоген воспринимал бы современную визуальную составляющую современного мира: поп-культуру, бренды и медиа. Используя генеративную модель Stable Diffusion, я создала серию изображений, в которых узнаваемые образы (в частности, сцены из сериала «Друзья», Человек-паук, банка Coca-Cola, айфон, инфлюенсеры) соединяются с эстетикой постимпрессионизма и индивидуального стиля Гогена.

big
Original size 2480x518

Примеры работ Поля Гогена, взятые для обучения

Жан Поль Гоген стремился к «утраченной подлинности» — к мифическому раю, где жизнь свободна от индустриализации и потребительства. Такой мир художник нашёл для себя на острове Таити.

В проекте «Гоген 2.0» этот нарратив обыгрывается через реалии современного общества: бренды, массовую культуру, цифровую зависимость. В основе концепции моего проекта — диалог между эпохами, где нейросеть становится медиумом, универсальным проводником между Гогеном и XXI веком.

Подготовка к процессу обучения генеративной нейросети Stable Diffusion

Я взяла картины Гогена и обрезала их до размера 512×512 (чем меньше размер — тем быстрее обучается модель). При обучении мне это было важно, так как ресурсы Google Colab ограничены. Когда обрезала картинки, то выделяла в них существенные части, так как 512×512 это квадрат и очевидно, что что-то не войдёт. Работы подобрала разные: портреты, натюрморты, пейзажи.

big
Original size 2730x950

Загрузка и превью изображений

Original size 2720x948

Сгенерированные промпты к изображениям из датасета

Для обучения необходимо сгенерировать подписи/промпты для изображений из моего датасета. На этом шаге я выбрала уникальный токен LAFOMIE (мой никнейм) для промптов. Важно было использовать уникальный промпт, который не ассоциируется с Гогеном, так как я хотела обучить нейросеть на изображениях, которые я подобрала сама.

Первая попытка обучения

Я взяла 30-35 картинок. Дообучила ее за «500 шагов» (это параметр обучения, от которого в основном зависит длительность обучения), чтобы посмотреть, работает ли обучение.

На примерах видно, что эта модель неплохо нарисовала темнокожую женщину и пейзажи с животными в стиле Гогена. А вот небоскребы (которых не было в датасете), получаются живописно, но совсем не в стиле художника.

Original size 2752x880

Пример генерации изображения

Original size 1024x1024

In the style of LAFOMIE, woman portrait

Original size 1644x858

Слева направо: In the style of LAFOMIE, cat playing In the style of LAFOMIE, horse, field

Original size 1024x1024

In the style of LAFOMIE, night, new york skyscrapers

Вторая попытка обучения и итоговый результат

Посмотрела на результаты и решила, что стоит попробовать расширить датасет, так как модель не очень удачно рисовала предметы, которых не было в картинках из датасета. Поэтому далее я подумала, что можно обучить модель подольше (1000 шагов) и запомнить промежуточные состояния модели, чтобы потом посмотреть на результаты для разных стадий обучений (20%, 40%, 60%, 80%, 100%).

В этот раз взяла около 50 картинок. Результат оказался гораздо лучше и качественнее. Более того, стиль становится виден даже на тех предметах, которых нет в датасете (банка колы, айфон, небоскребы и тд), что мне и требовалось получить для создания проекта, чтобы показать работы Поля Гогена ХХI века.

Original size 1456x906

Параметры обучения

Original size 1024x1024

In the style of LAFOMIE, iphone 13 pro, on a table

Original size 2480x874

Слева направо: In the style of LAFOMIE, Sunglasses on a magazine cover In the style of LAFOMIE, Celebration birthday table In the style of LAFOMIE, Skateboarder mid-jump

Original size 1024x1024

In the style of LAFOMIE, Woman holding a smartphone in a tropical forest

Original size 2400x775

Слева направо: In the style of LAFOMIE, Pulp fiction In the style of LAFOMIE, spider man, jungle In the style of LAFOMIE, friends tv show

Original size 1024x1024

In the style of LAFOMIE, yandex delivery robots, city street

Original size 2480x858

Слева направо: In the style of LAFOMIE, ocean, floating plastic bottles In the style of LAFOMIE, children playing with plastic waste In the style of LAFOMIE, realisitc, ocean, floating

Original size 1024x1024

In the style of LAFOMIE, virtual reality headset

Original size 2480x858

Слева направо: In the style of LAFOMIE, Small delivery robots waiting at a traffic light In the style of LAFOMIE, night, new york skyscrapers In the style of LAFOMIE, subway commuters

Потом я решила сравнить результаты работы обученных моделей из разных попыток. Как мне кажется, модель, обученная на большем количестве изображений и за большее число шагов выдает результаты намного ближе к стилю и эстетике Гогена.

Original size 2480x1216

Слева направо: In the style of LAFOMIE, coca cola, bottle (модель на 500 шагов) In the style of LAFOMIE, coca cola, bottle (модель на 1000 шагов)

Еще я сравнила результаты обучения моделей на промежуточных шагах, чтобы отследить развитие модели и их соответствие со стилем Гогена. Получилось, что чем большее количество шагов обучения проходит модель, тем качественнее получается результат.

Original size 2760x1178

Пример генерации изображения из промежуточной версии

Original size 2480x526

In the style of LAFOMIE, serov, girl with peaches 200, 400, 600, 800, 1000 шагов

В заключение хотелось бы отметить, что данный проект исследует не столько возможность сгенерировать изображения в стиле Гогена, сколько возможность изучить, как можно дообучить нейросеть на какой-то стиль/эстетику. Понять, какие в целом есть возможности и ограничения, чтобы в будущем применить в реальной жизни и на реальных проектах.

Все исходные изображения Поля Гогена были взяты с открытой лицензией семейства Creative Commons.

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more