Original size 768x1152

Анализ национальностей в k-pop группах

PROTECT STATUS: not protected
10

Я фанатка музыкального жанра «k-pop» и активно слежу за новостями к-поп индустрии. В последние годы я стала замечать, что всё больше иностранцев дебютирует в Корее. Мне стало интересно узнать, насколько сильно теперь смешиваются национальности в группах, поэтому решила проанализировать таблицы с данными, взятами с сайта kaggle.

Название базы данных — K-Pop Database (1992-2020)

К сожалению, в последний раз таблицы обновлялись в 2020 году, поэтому информация не столь актуальна. Однако всё равно интересно посмотреть, как индустрия поменялась за 28 лет!

В проекте использовалось 4 вида диаграмм: — круговая диаграмма — столбчатая диаграмма — график — гистограмма

Цветовая палитра и шрифт

При построении графиков я использовала основную палитру из пяти цветов.

#31466B #59729A #9E6D7B #F0BFAF #F8E1B7

Но иногда групп данных было больше пяти, поэтому мне пришлось добавить ещё 5 оттенков.

#FFD98D #9DAFD3 #B77DAD #667282 #ABB4BD’

Шрифт я взяла из модуля font_manager в библиотеке matplotlib. Название шрифта — Dejavu Serif.

big
Original size 1920x879

Национальности в к-поп группах

Перед тем как начать работать с данными, я импортировала их с сайта kaggle, скачав архив и переместив его в папку на рабочем столе.

Я обратилась к ChatGPT, чтобы он подсказал, какие библиотеки и функции нужно использовать, чтобы загрузить датасет в гугл коллаб.

Original size 575x305

Импортирование базы данных в Google Colab

Первым делом я решила узнать сколько в целом иностранцев есть в к-поп группах, дебютировавших в период с 1992 по 2020.

Для этого я отсортировала табличку kpop_idols.csv и заменила в столбце «Country» все страны, не являющиеся Южной Кореей на «Other».

Далее я посчитала, сколько раз встречалось каждое уникальное значение в столбце Country с помощью функции value_counts ().

После того, как все данные были отсортированы, я преступила к генерации диаграммы, подставив цвета из цветовой палитры и нужные шрифты.

Original size 1059x266

Код для круговой диаграммы

Original size 637x472

Распределение национальностей исполнителей К-поп

После того, как я увидела процентное соотношение иностранцев и корейцев, я решила узнать, из каких стран иностранные айдолы.

Я попросила ChatGPT помочь с логикой сортировки, а также логикой объединения стран с коэффициэнтом меньше 1% в общую группу «other».

Original size 970x374

Код для создания круговой диаграммы

Original size 785x643

Родные страны айдолов, родившихся не в Корее

Как часто иностранцы дебютируют в к-поп группах

Далее я решила узнать, начиная с какого года в к-поп группах начали появляться иностранцы. Для этого мне была нужна статистика иностранцев в группах по годам.

Это был самый сложный анализ данных, так как мне пришлось объединить 3 таблички: 1. К-поп айдолы 2. Мужские к-поп группы 3. Женские к-поп группы

Из второй и третьей таблицы я брала год дебюта каждой группы, а из первой родные страны участников этих групп.

Original size 1614x1068

Код для столбчатой диаграммы

Сначала я работала с табличкой со списком к-поп айдолов. Я отсортировала столбец со странами, убрав из него Южную Корею, а потом с помощью unique () создала массив с уникальными странами, чтобы они не повторялись.

Далее я создала дата фрейм с айдолами, чьи страны входят в этот уникальный список. Потом сгруппировала его по названиям групп и посчитала количество иностранных айдолов в каждой группе.

Original size 554x109

Потом я переименовала столбец Names в таблицах с женскими и мужскими группами в Groups, чтобы названия совпадали, и отформатировала столбец с датой дебюта, чтобы был только год, без месяца и дня.

Удалила дублирующиеся группы из обеих таблиц, чтобы оставались уникальные пары группа — год дебюта.

Далее объединила табличку с айдолами с табличками женских и мужских групп по столбцу Groups и привела значения в столбце к целочисленной форме.

Original size 998x319

Ну и в конце я отсортировала получившийся дата фрейм по году дебюта и сделала диаграмму, снова настроив цвета и нужный шрифт.

Original size 934x280
Original size 1178x776

После построения столбчатой диаграммы я поняла, что она не так хорошо показывает динамику изменений в количестве иностранных айдолов, поэтому решила построить ещё и линейный график.

Original size 752x319

Код для линейного графика

Original size 1076x708

Люди из каких городов Кореи чаще всего дебютируют

В самом конце я решила узнать, а какая динамика среди айдолов из самой Кореи!

Сначала я отсортировала айдолов по странам, оставив только тех, у кого страна Южная Корея, а после посчитала количество айдолов в каждом уникальном городе. Города, где айдолов меньше 5, я объединила в группу other.

Original size 736x332

Код для построения гистограммы

Original size 1070x711

Заключение

Подведём итоги. С 1992 по 2020 гг в к-поп группах было меньше 10% людей не из Кореи. Самые популярные родные страны айдолов, кроме Кореи — Китай, Япония и Америка. В конце 20го века в к-поп группах были практически только корейцы, но начиная с 2015 года иностранцев начало появляться всё больше и больше. Среди самих же корейцов айдолами становятся в основном те, кто родились в Сеуле, но есть достаточно большое количество и из других городов!

Использованные нейросети: — ChatGPT 3.5 — ideogram (обложка)

Анализ национальностей в k-pop группах
10
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more