Original size 1140x1600

Дообучение нейросети на стиль арт-деко

Концепция

Арт-деко — это художественный и дизайнерский стиль, расцветший в 1920–1930-х годах. Его можно назвать эстетикой роскоши, геометрии и футуризма. Он отличается яркими схематичными палитрами, плавными линиями в сочетании с вытянутыми вертикальными силуэтами, экзотическими паттернами и графичной заливкой цвета.

В этом проекте я обучаю нейросеть на изображениях в стиле арт-деко — обложках для Vogue и других постерах 1920–30-х годов. Я выбирала изображения наиболее похожие по стилю, это оказались работы авторства французских художников и художниц. Я обращала внимание на то, чтобы на иллюстрациях не было светотени, потому что именно такие генерации я хотела создать.

Original size 3857x1657

Первоначальная задумка: создать серию работ в этом стиле с персонажами мира фэнтези. Мне стало интересно, как они будут выглядеть в этом стиле.

Код

Для дообучения модели Stable Diffusion я использовала готовый ноутбук от Hugging Face: SDXL DreamBooth + LoRA. Этот ноутбук предоставляет удобную среду для обучения с использованием DreamBooth в сочетании с техникой LoRA.

При подготовке датасета я привела изображения к квадратному формату 1:1 с разрешением 512×512 пикселей и удалила с них текстовые элементы, чтобы исключить возможные искажения в процессе обучения модели.

Original size 1438x277

Original size 1838x187

Я использовала префикс: «illustration in ART DECO style», а технология BLIP помогла сгенерировать дополнительное описания к изображениям.

Original size 2009x236

Original size 1602x501

Сгенерированные изображения

Первая попытка

Нейросеть хорошо передала ракурс в профиль, что, вероятно, связано с большим количеством обучающих примеров в этом ракурсе. Однако, изображения в ¾ и анфас получились менее стилизованными и меньше похожи на стиль, который был использован при обучении нейросети.

Указание в запросе элементов одежды, которые чаще встречались в исходных изображениях, помогло нейросети точнее воспроизвести заданный стиль. Например, в промптах фигурировали красное платье и черная шляпа.

При генерации изображений фэнтезийных героинь, таких как эльфийки и вампирши, нейросеть часто отклоняется от заданного стиля, добавляя детали, не характерные для него. Например, она может излишне детализировать локоны волос.

В удачных примерах нейросеть смогла передать плоскую заливку цветом без теней, характерные для стиля черты фигуры, а также бледную палитру с эффектом шума, если в промпте не было указано обратного.

Вторая попытка

После повторного обучения с дополнением датасета изображения стали реалистичнее, особенно в проработке лицевых черт. При этом уровень детализации локонов снизился, что, напротив, сыграло на пользу — такая стилизация больше соответствует визуальному языку арт-деко, где преобладают обобщённые формы и графичность линий.

Заключение

Анализ результатов генерации показал, что нейросеть чувствительно реагирует как на содержание обучающего датасета, так и на формулировку текстового запроса. Ракурсы, чаще встречающиеся в тренировочных изображениях (например, профиль), воспроизводятся значительно точнее и стилистически ближе к оригиналу, в то время как менее представленные (¾, анфас) получаются менее выразительными в рамках заданного стиля.

Использование узнаваемых элементов одежды, характерных для исходного материала, позволяет нейросети лучше следовать эстетике арт-деко. Однако при генерации фэнтезийных персонажей модель склонна отходить от заданной стилистики, особенно в детализации, где добавляет элементы, не характерные для оригинального стиля — например, избыточную проработку волос.

Повторное обучение нейросети с расширенным датасетом дало противоречивый результат. С одной стороны, изображения стали более реалистичными, особенно в проработке лиц и поз. Однако это привело к нежеланному стилевому смещению — визуальный язык стал больше напоминать ар-нуво, а не арт-деко, что ослабило целевую стилизацию.

Тем не менее, такая адаптация модели также позволила частично устранить характерные ошибки, наблюдавшиеся ранее: избыточную детализацию локонов и элементов фона, которые нередко превращались в чрезмерно сложные и неуместные декоративные паттерны.

Таким образом, повторное обучение продемонстрировало, насколько тонко генеративная модель балансирует между стилистической выразительностью и реалистичностью. Для более точного соответствия стилю арт-деко может потребоваться более тщательно подобранный датасет и точечная настройка веса стиля при обучении.

Особый интерес представили результаты генерации фэнтезийных персонажей — эльфийки, русалки и вампирши. Модель хорошо адаптировалась под общий художественный стиль и без дополнительных подсказок удачно подбирала цветовую палитру, соответствующую персонажу. В случае с вампиршей нейросеть сначала использовала более готические и мрачные тона, менее характерные для арт-деко, однако уже при повторной попытке генерации она скорректировала цвета, приблизив изображение к нужной эстетике.

Блокнот

Посмотреть блокнот

Описание применения генеративной модели

Для генерации изображений в проекте используется нейросеть Stable Diffusion XL, дообученная с применением методов LoRA и DreamBooth. Для автоматической аннотации обучающих изображений применяется модель BLIP, которая генерирует связные текстовые описания на основе визуального контента.

При возникновении затруднений в понимании кода я обращалась за помощью к ChatGPT.

Дообучение нейросети на стиль арт-деко

Aylin Adzhar

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...