
Я фанатка музыкального жанра «k-pop» и активно слежу за новостями к-поп индустрии. В последние годы я стала замечать, что всё больше иностранцев дебютирует в Корее. Мне стало интересно узнать, насколько сильно теперь смешиваются национальности в группах, поэтому решила проанализировать таблицы с данными, взятами с сайта kaggle.
Название базы данных — K-Pop Database (1992-2020)
К сожалению, в последний раз таблицы обновлялись в 2020 году, поэтому информация не столь актуальна. Однако всё равно интересно посмотреть, как индустрия поменялась за 28 лет!
В проекте использовалось 4 вида диаграмм: — круговая диаграмма — столбчатая диаграмма — график — гистограмма
Цветовая палитра и шрифт
При построении графиков я использовала основную палитру из пяти цветов.
#31466B #59729A #9E6D7B #F0BFAF #F8E1B7
Но иногда групп данных было больше пяти, поэтому мне пришлось добавить ещё 5 оттенков.
#FFD98D #9DAFD3 #B77DAD #667282 #ABB4BD’
Шрифт я взяла из модуля font_manager в библиотеке matplotlib. Название шрифта — Dejavu Serif.

Национальности в к-поп группах
Перед тем как начать работать с данными, я импортировала их с сайта kaggle, скачав архив и переместив его в папку на рабочем столе.
Я обратилась к ChatGPT, чтобы он подсказал, какие библиотеки и функции нужно использовать, чтобы загрузить датасет в гугл коллаб.
Импортирование базы данных в Google Colab
Первым делом я решила узнать сколько в целом иностранцев есть в к-поп группах, дебютировавших в период с 1992 по 2020.
Для этого я отсортировала табличку kpop_idols.csv и заменила в столбце «Country» все страны, не являющиеся Южной Кореей на «Other».
Далее я посчитала, сколько раз встречалось каждое уникальное значение в столбце Country с помощью функции value_counts ().
После того, как все данные были отсортированы, я преступила к генерации диаграммы, подставив цвета из цветовой палитры и нужные шрифты.
Код для круговой диаграммы
Распределение национальностей исполнителей К-поп
После того, как я увидела процентное соотношение иностранцев и корейцев, я решила узнать, из каких стран иностранные айдолы.
Я попросила ChatGPT помочь с логикой сортировки, а также логикой объединения стран с коэффициэнтом меньше 1% в общую группу «other».
Код для создания круговой диаграммы
Родные страны айдолов, родившихся не в Корее
Как часто иностранцы дебютируют в к-поп группах
Далее я решила узнать, начиная с какого года в к-поп группах начали появляться иностранцы. Для этого мне была нужна статистика иностранцев в группах по годам.
Это был самый сложный анализ данных, так как мне пришлось объединить 3 таблички: 1. К-поп айдолы 2. Мужские к-поп группы 3. Женские к-поп группы
Из второй и третьей таблицы я брала год дебюта каждой группы, а из первой родные страны участников этих групп.
Код для столбчатой диаграммы
Сначала я работала с табличкой со списком к-поп айдолов. Я отсортировала столбец со странами, убрав из него Южную Корею, а потом с помощью unique () создала массив с уникальными странами, чтобы они не повторялись.
Далее я создала дата фрейм с айдолами, чьи страны входят в этот уникальный список. Потом сгруппировала его по названиям групп и посчитала количество иностранных айдолов в каждой группе.
Потом я переименовала столбец Names в таблицах с женскими и мужскими группами в Groups, чтобы названия совпадали, и отформатировала столбец с датой дебюта, чтобы был только год, без месяца и дня.
Удалила дублирующиеся группы из обеих таблиц, чтобы оставались уникальные пары группа — год дебюта.
Далее объединила табличку с айдолами с табличками женских и мужских групп по столбцу Groups и привела значения в столбце к целочисленной форме.
Ну и в конце я отсортировала получившийся дата фрейм по году дебюта и сделала диаграмму, снова настроив цвета и нужный шрифт.
После построения столбчатой диаграммы я поняла, что она не так хорошо показывает динамику изменений в количестве иностранных айдолов, поэтому решила построить ещё и линейный график.
Код для линейного графика
Люди из каких городов Кореи чаще всего дебютируют
В самом конце я решила узнать, а какая динамика среди айдолов из самой Кореи!
Сначала я отсортировала айдолов по странам, оставив только тех, у кого страна Южная Корея, а после посчитала количество айдолов в каждом уникальном городе. Города, где айдолов меньше 5, я объединила в группу other.
Код для построения гистограммы
Заключение
Подведём итоги. С 1992 по 2020 гг в к-поп группах было меньше 10% людей не из Кореи. Самые популярные родные страны айдолов, кроме Кореи — Китай, Япония и Америка. В конце 20го века в к-поп группах были практически только корейцы, но начиная с 2015 года иностранцев начало появляться всё больше и больше. Среди самих же корейцов айдолами становятся в основном те, кто родились в Сеуле, но есть достаточно большое количество и из других городов!
Использованные нейросети: — ChatGPT 3.5 — ideogram (обложка)