
Описание
Уникальный вид японских комиксов стал частью мировой поп-культуры. Черно-белые графические истории завоевали сердца миллионов читателей благодаря неповторимому стилю. Одной из главных особенностей манги стало разнообразие жанров для разношерстной аудитории.
Среди множества историй есть те, которые выделяются своей популярностью и превращаются в мировые бестселлеры. Эти произведения выходят за рамки просто успешных историй, становясь культурными явлениями.
В этом проекте я хочу исследовать, что делает мангу настолько популярной и культовой. Я сосредоточусь на изучении бестселлеров. Почему именно эти истории находят отклик у такой широкой аудитории и остаются актуальными на протяжении десятилетий

Будучи большой фанаткой манги, я с особым интересом подошла к этому исследованию. Для анализа был выбран датасет с Kaggle.
Я выбрал такие типы графиков, как гистограммы, столбчатые диаграммы, точечные графики и круговые диаграммы. Эти визуализации были выбраны, чтобы наглядно представить распределение данных, сравнения между группами и выявить возможные корреляции.
В оформлении я хотела подчеркнуть традиционную японскую эстетику и связь с культурой манги благодаря чёрно-белой цветовой гамме, отсылающей к классическому стилю жанра, и акцентам розового цвета, напоминающим о сакуре — символе Японии.
Таким образом, основным цветом стал #E7C9E1
Подготовка данных
В рамках анализа я подключила основные библиотеки Python, включая Pandas, Matplotlib, Seaborn, XGBoost, а также LabelEncoder из sklearn для предварительной обработки данных. Сначала датасет был загружен и очищен от дубликатов. Это позволило обеспечить корректность дальнейшего анализа.
Далее был выполнен анализ структуры датасета с использованием метода .head () для первичного ознакомления с данными.

Визуализация данных
На первой диаграмме показано количество манги, разделённой по аудиториям, таким как сёнэн, дзёсэй, сэйнэн и другие. График показывает, что сёнэн (манга для подростков) занимает наибольшую долю, что скорее указывает на то, что манга в основном читается подростками. Это также может означать, что аудитория предпочитает читать истории, в которых главным героям свойственен возраст и переживания подростков.
Вторая диаграмма демонстрирует продажи по категориям аудитории. Здесь видно, что категории сёнэн и сэйнэн занимают лидирующие позиции по продажам, это подчёркивает их коммерческую привлекательность. В то же время категории, такие как дзёсэй, демонстрируют меньшие значения, что указывает на их специфический и более узкий рынок.
Одна из диаграмм показывает количество манги, издаваемой различными издательствами, и на первом месте здесь — Shueisha, которая выпускает большинство популярных серий. Другая диаграмма отражает общие продажи манги по тем же издателям и подтверждает, что лидеры по количеству изданных произведений также доминируют по продажам. Это говорит о том, что высокая активность издательства на рынке способствует большему коммерческому успеху его манги.
Точечный график, демонстрирует, как количество томов коррелирует с общими продажами. Мы можем наблюдать положительную корреляцию: чем больше томов в серии, тем выше вероятность значительных продаж. Однако наблюдаются исключения, такие как короткие, но очень успешные серии, что указывает на роль сюжетной уникальности.
Круговая диаграмма, отображает количество продаж для десяти самых успешных авторов. На графике можно увидеть, что лидером является Эйитиро Ода (создатель «One Piece»), значительно опережая других авторов по общему числу продаж.
Для более глубокого анализа я использовала алгоритм XGBoost, который применила к данным для создания модели, предсказывающей успешность манги. Решение о применении машинного обучения было принято, потому что стандартные методы анализа не могли выявить скрытые закономерности, которые влияют на успех манга. Для этого я разделила данные на обучающую и тестовую выборки с использованием метода train_test_split.
Для такой сложной для меня задачи, я, конечно же, обратилась к chat GPT-4.
На графике важности признаков, построенном на основе модели, можно было увидеть, что наибольшее влияние на успешность манга оказывают два ключевых фактора: общее количество продаж и средние продажи на том. Это подтверждает гипотезу о том, что успешные серии, как правило, имеют не только высокий общий тираж, но и большое количество выпусков.
Выводы
Проект помог глубже понять, какие факторы влияют на успех манги. Я увидела, что издательства, активно выпускающие много серий, обычно лидируют и по продажам. Это подтверждает идею, что успех на рынке напрямую связан с активностью издательства — чем больше произведений выпускаешь, тем больше шансов на коммерческий успех.