
Концепция
Я люблю слушать музыку, и мне сложно представить свою жизнь без неё. Обычно я либо слушаю все песни из своего плейлиста в произвольном порядке, либо заслушиваю одну и ту же песню до дыр месяцами, поэтому мне всегда интересно посмотреть на свои «топ-10» и на статистику, которую стриминговые сервисы публикуют в конце года. Именно любовь к музыке и изучению статистики, связанной с ней, побудила меня взять в качестве материала для исследования данные по песням. Для анализа текстов песен я выбрала жанр «поп», ведь многие относятся к нему как к лёгкой и несерьёзной музыке, не заслуживающей внимания, хотя в этом жанре можно заметить интересные закономерности, выявлению которых и посвящён мой проект.
Поп-музыка — это не только развлечение, но и зеркало общества, которое отражает эмоции и переживания.
В рамках этого проекта я решила провести анализ текстов поп-песен, используя различные методы визуализации данных, чтобы выявить закономерности.
Для анализа я выбрала датасет, взятый с платформы Hugging Face и содержащий более 1000 песен различных исполнителей, и изучила, какие темы наиболее часто встречаются в текстах, а также провести анализ на основе таких характеристик, как длина текстов и эмоциональная окраска песен. Все данные были обработаны с использованием Python, для визуализации использовались такие библиотеки, как Matplotlib, Seaborn и WordCloud.
Подготовка
Перед началом работы я решила выбрать цветовую палитру для дальнейшего использования в графиках. Для этого я нашла статью с 20 лучшими поп-альбомами XXI века и взяла оттуда обложки альбомов.

20 лучших поп-альбомов XXI века
Из обложек я сделала коллаж и загрузила его в Adobe Color, чтобы получить цветовую палитру.
Найдя подходящий датасет, я начала писать код. Первым делом я очистила данные, удалив ненужные символы, такие как квадратные скобки и заголовки песен, а также перевела тексты в нижний регистр для упрощения дальнейшего анализа.
После этого я выбрала пять параметров, на основе которых можно провести анализ, и выбрала, какие типы диаграмм буду использовать для каждого из них.
• Круговая диаграмма была выбрана для анализа распределения тональности песен, так как она эффективно демонстрирует пропорции.
• Иерархическая карта — для визуализации частоты ключевых слов в разных темах, так как этот тип диаграммы хорошо показывает соотношение в пропорции.
• Облако слов было выбрано за простоту восприятия и эффектность.
• Точечная диаграмма использовалась для анализа длины песен, так как она позволяет чётко увидеть распределение по диапазону.
• Столбчатая диаграмма была использована для анализа артистов с самыми длинными песнями, так как она легко воспринимается при сравнении нескольких категорий.
Анализ данных
Тональность песен
Первым делом я решила выяснить, какую эмоциональную окраску имеют тексты поп-песен. Это дало представление о том, насколько оптимистичными или пессимистичными являются популярные песни.
Большая часть песен имеет положительную тональность (72,5%), что подтверждает общее восприятие поп-музыки как легкой, позитивной и развлекательной. Нейтральные и отрицательные песни занимают меньшую долю, что может свидетельствовать о том, что такие песни более редки в поп-жанре.
Популярные темы и ключевые слова
Разобравшись с тональностью, я решила выявить, какие темы и слова чаще всего встречаются в текстах поп-песен. Это может рассказать о том, что наиболее актуально и интересно слушателям в поп-культуре.
Наибольшее количество упоминаний в песнях связано с темой любви («love»), что подтверждает, что эта тема — основная в поп-музыке. Также популярными являются слова, связанные с эмоциями, ласковыми обращениями («heart», «baby», «cry») и временем («time», «day»), что подчеркивает фокус на личных переживаниях и отношениях. Интересно, что слова, такие как «money» и «party», тоже встречаются часто, что может указывать на тренды, связанные с богатством и развлекательной культурой.
Наиболее часто встречающиеся слова
Для лучшего понимания тенденций поп-музыки я продолжила анализ лексики. Облако слов дает визуальное представление о том, какие слова наиболее часто встречаются в текстах песен, что помогает быстро увидеть ключевые темы и слова.
Из облака слов видно, что слова «love» и «know» преобладают, что подтверждает вывод из предыдущего графика о фокусе на любви и отношениях. Также стоит отметить наличие таких слов, как «wanna» и «baby», что характерно для разговорной, более эмоциональной и личной лексики.
Длина текстов песен
Этот график позволяет проанализировать, насколько разнообразны тексты песен по длине, и увидеть, есть ли в поп-музыке тенденция к более коротким или более длинным песням.
Диаграмма отражает большое количество песен с короткими текстами (до 500 слов), однако на ней также есть песни, содержащие до 3000-3500 слов. Это говорит о том, что музыка может быть как очень лаконичной, так и достаточно объемной, в зависимости от стиля и задуманного исполнителем эффекта.
Артисты с самыми длинными текстами
Узнав тенденции в длине текстов, я решила выявить артистов с самыми длинными текстами песен. Полученная статистика может говорить об оригинальном творческом подходе и желании передать более глубокие и сложные сообщения.
Из графика видно, что такие артисты, как Snoop Dogg, Kendrick Lamar и Pharrell Williams, имеют самые длинные тексты песен, что свидетельствует об использовании лирики как метода для выражения сложных идей и историй.
Заключение
С помощью графиков, представленных в проекте, можно сделать несколько интересных выводов.
Во-первых, можно заметить, что в поп-песнях преобладают нейтральные и позитивные настроения, с небольшим количеством негативных песен. Во-вторых, анализ длины песен показал, что большинство из них имеют среднюю длину, однако есть несколько артистов, чьи тексты значительно длиннее остальных.
В целом, исследование доказывает, что поп-музыка — это жанр, который ориентирован на массовую аудиторию и в то же время достаточно разнообразен по тематике.
Описание применения генеративной модели
Работая над анализом данных и составлением диаграмм, я несколько раз обращалась к нейросети Chat GPT за советами по улучшению кода и за помощью с идеями оформления графиков, а также к нейросети Recraft.ai для генерации изображения для обложки проекта.
Все промпты, использованные в проекте, собраны в документе.
Источники
Ссылка на датасет smgriffin/modern-pop-lyrics
Ссылка на изображения для коллажа The 20 best pop albums of the 21st century
Генерация цветовой палитры на основе загруженного изображения Adobe Color
Генерация рекомендаций по улучшению кода и инструкций Chat GPT version 4.0
Генерация обложки проекта Recraft.ai