
Идея
Думаю, каждый фанат или обычный зритель мультфильмов «Человек-паук: Через вселенные» и «Человек-паук: Паутина вселенных» был потрясен их особым и оригинальным стилем, сочетающим в себе несколько техник: глитч, 3D, 2D и, конечно же, комиксную эстетику. Основным создателем такого стиля является Альберт Мьельго. Мне стало интересно, сможет ли нейросеть обучиться такому сложному стилю, а впоследствии и узнать, могла бы она помочь в создании такого масштабного проекта хотя бы на уровне фонов.
Исходные изображения
- Было выбрано около 80 изображений для обучения модели, на которых хорошо виднелся фон. - Далее каждая фотография была обрезана в соотношении сторон 1:1.
«Человек паук: Через вселенные» и «Человек-паук: Паутина вселенных»
Человек паук: Через вселенные
Ход проекта
Сначала была написана вводная часть кода (создание и загрузка библиотек и папок). Далее для оптимизации работы была запущена команда «! accelerate config». Следующим шагом было обучение модели с помощью библиотеки Accelerate от Hugging Face. А завершающим техническим шагом была загрузка модели для генерации изображений на основе текстовых подсказок.
Обучение модели
Модель загружается из локальной папки «content/trained» и переводится на GPU с использованием типа данных float16. Это помогает ускорить вычисления и уменьшить использование памяти.
Я начала с такого промта: «In the style of the cartoon „Spider-Man: Into the Spider-Verse“ in the comic book style, cyberpunk-meets-futuristic fantasy vibe, with towering structures, neon lighting, intricate details. The person in the center has a dynamic, action-packed feel.» Я не могла добиться желаемого результата. Хотя каждое получившееся изображение имело хороший фон, но его портило непонимание анатомии человеческого тела нейросетью, что мешало получить желаемый и качественный результат.
Однако были и варианты, похожие на Человека-паука, но в этом случае меня уже не устраивал фон из-за его простоты.
Вследствие чего я решила немного изменить промт, который бы сосредоточился на более главной цели — сгенерировать качественный и похожий на референсы фон: «Create a background without characters for animation in the style of the cartoon „Spider-Man: Into the Spider-Verse“ with comic book elements featuring glitch effects and comic-style visuals. The background should combine cyberpunk and futuristic fantasy, with towering structures, neon lighting, and intricate details. In the center, there should be a dynamic and energetic design, creating a sense of action and intensity.»
Это уже было намного ближе к конечному результату, фон уже выглядит в стилистике мультфильма и человеческие части тела его не портят. Но я бы хотела чтобы в следущей генерации было видно очертание города: «Create a background for animation in the style of the cartoon „Spider-Man: Into the Spider-Verse“ with comic book elements featuring glitch effects and comic-style visuals. The background should combine cyberpunk and futuristic fantasy, with towering structures, neon lighting, and intricate details. The outlines of the city should be slightly discernible, adding depth to the scene.»
Дальше мне захотелось поработать с несколько иной эстетикой анимации — глитч, поэтому я написала такой промт: «Create a background for animation in the style of the cartoon „Spider-Man: Into the Spider-Verse“ where lightning emanates from the center in a glitch style and comic book style, inspired by the animated movie „Spider-Man: Into the Spider-Verse.“ I would love to see vibrant colors and dynamic elements that create a sense of energy and action.»
Получился довольно интересный результат, который мне понравился, даже несмотря на некоторые несостыковки. Стилистика глитча, как будто бы, допускает такое, но также были и неудачные примеры, где ошибки в анатомии были слишком явными.
После я все же решила вернуться к виду города, но уже ночного: «Create a background for animation in the style of the cartoon „Spider-Man: Into the Spider-Verse“ where glitch skyscrapers at night, with the camera looking up at them from below with vibrant colors and dynamic elements that create a sense of energy and action.» К сожалению, нейросеть не смогла мне сгенерировать именно пейзаж ночного города, возможно, из-за маленького количества исходных изображений, где в большей части светлые и 'дневные' оттенки.
Итоговая версия
Но, несмотря на какие-то недочеты, этот промт сгенерировал лучшие фоны в стиле мультфильма. Особенно такая стилистика своей размытостью, как акварельными красками и розоватыми оттенками, напоминает вселенную Гвен, подруги Паучка.
Человек-паук: Паутина вселенных
В итоге нейросеть смогла создать фоны для мультфильма «Человек-паук», хотя и без особого разнообразия, но зато с очень качественным результатом. Особенно моя модель смогла бы помочь команде аниматоров со вселенной Гвен Стейси. Если проследить обучаемость модели с самых первых генераций, то можно заметить небольшой прогресс в сторону детализации пространства.
Код
Дополнительные источники/гениративные модели
- Stable Diffusion - HuggingFace - Stable Diffusion with 🧨 Diffusers - GitHub - ChatGPT (для исправления ошибок в коде и правильного написания промтов)