Анализ текстов поп-песен через визуализацию данных on HSE Design
Original size 1024x1434

Анализ текстов поп-песен через визуализацию данных

PROTECT STATUS: not protected
3

Концепция

Я люблю слушать музыку, и мне сложно представить свою жизнь без неё. Обычно я либо слушаю все песни из своего плейлиста в произвольном порядке, либо заслушиваю одну и ту же песню до дыр месяцами, поэтому мне всегда интересно посмотреть на свои «топ-10» и на статистику, которую стриминговые сервисы публикуют в конце года. Именно любовь к музыке и изучению статистики, связанной с ней, побудила меня взять в качестве материала для исследования данные по песням. Для анализа текстов песен я выбрала жанр «поп», ведь многие относятся к нему как к лёгкой и несерьёзной музыке, не заслуживающей внимания, хотя в этом жанре можно заметить интересные закономерности, выявлению которых и посвящён мой проект.

Поп-музыка — это не только развлечение, но и зеркало общества, которое отражает эмоции и переживания.

В рамках этого проекта я решила провести анализ текстов поп-песен, используя различные методы визуализации данных, чтобы выявить закономерности.

Для анализа я выбрала датасет, взятый с платформы Hugging Face и содержащий более 1000 песен различных исполнителей, и изучила, какие темы наиболее часто встречаются в текстах, а также провести анализ на основе таких характеристик, как длина текстов и эмоциональная окраска песен. Все данные были обработаны с использованием Python, для визуализации использовались такие библиотеки, как Matplotlib, Seaborn и WordCloud.

Подготовка

Перед началом работы я решила выбрать цветовую палитру для дальнейшего использования в графиках. Для этого я нашла статью с 20 лучшими поп-альбомами XXI века и взяла оттуда обложки альбомов.

big
Original size 2628x1582

20 лучших поп-альбомов XXI века

Из обложек я сделала коллаж и загрузила его в Adobe Color, чтобы получить цветовую палитру.

Original size 2628x934

Найдя подходящий датасет, я начала писать код. Первым делом я очистила данные, удалив ненужные символы, такие как квадратные скобки и заголовки песен, а также перевела тексты в нижний регистр для упрощения дальнейшего анализа.

Original size 2628x1671

После этого я выбрала пять параметров, на основе которых можно провести анализ, и выбрала, какие типы диаграмм буду использовать для каждого из них.

• Круговая диаграмма была выбрана для анализа распределения тональности песен, так как она эффективно демонстрирует пропорции.

• Иерархическая карта — для визуализации частоты ключевых слов в разных темах, так как этот тип диаграммы хорошо показывает соотношение в пропорции.

• Облако слов было выбрано за простоту восприятия и эффектность.

• Точечная диаграмма использовалась для анализа длины песен, так как она позволяет чётко увидеть распределение по диапазону.

• Столбчатая диаграмма была использована для анализа артистов с самыми длинными песнями, так как она легко воспринимается при сравнении нескольких категорий.

Анализ данных

Тональность песен

Первым делом я решила выяснить, какую эмоциональную окраску имеют тексты поп-песен. Это дало представление о том, насколько оптимистичными или пессимистичными являются популярные песни.

0

Большая часть песен имеет положительную тональность (72,5%), что подтверждает общее восприятие поп-музыки как легкой, позитивной и развлекательной. Нейтральные и отрицательные песни занимают меньшую долю, что может свидетельствовать о том, что такие песни более редки в поп-жанре.

Популярные темы и ключевые слова

Разобравшись с тональностью, я решила выявить, какие темы и слова чаще всего встречаются в текстах поп-песен. Это может рассказать о том, что наиболее актуально и интересно слушателям в поп-культуре.

0

Наибольшее количество упоминаний в песнях связано с темой любви («love»), что подтверждает, что эта тема — основная в поп-музыке. Также популярными являются слова, связанные с эмоциями, ласковыми обращениями («heart», «baby», «cry») и временем («time», «day»), что подчеркивает фокус на личных переживаниях и отношениях. Интересно, что слова, такие как «money» и «party», тоже встречаются часто, что может указывать на тренды, связанные с богатством и развлекательной культурой.

Наиболее часто встречающиеся слова

Для лучшего понимания тенденций поп-музыки я продолжила анализ лексики. Облако слов дает визуальное представление о том, какие слова наиболее часто встречаются в текстах песен, что помогает быстро увидеть ключевые темы и слова.

0

Из облака слов видно, что слова «love» и «know» преобладают, что подтверждает вывод из предыдущего графика о фокусе на любви и отношениях. Также стоит отметить наличие таких слов, как «wanna» и «baby», что характерно для разговорной, более эмоциональной и личной лексики.

Длина текстов песен

Этот график позволяет проанализировать, насколько разнообразны тексты песен по длине, и увидеть, есть ли в поп-музыке тенденция к более коротким или более длинным песням.

0

Диаграмма отражает большое количество песен с короткими текстами (до 500 слов), однако на ней также есть песни, содержащие до 3000-3500 слов. Это говорит о том, что музыка может быть как очень лаконичной, так и достаточно объемной, в зависимости от стиля и задуманного исполнителем эффекта.

Артисты с самыми длинными текстами

Узнав тенденции в длине текстов, я решила выявить артистов с самыми длинными текстами песен. Полученная статистика может говорить об оригинальном творческом подходе и желании передать более глубокие и сложные сообщения.

0

Из графика видно, что такие артисты, как Snoop Dogg, Kendrick Lamar и Pharrell Williams, имеют самые длинные тексты песен, что свидетельствует об использовании лирики как метода для выражения сложных идей и историй.

Заключение

С помощью графиков, представленных в проекте, можно сделать несколько интересных выводов.

Во-первых, можно заметить, что в поп-песнях преобладают нейтральные и позитивные настроения, с небольшим количеством негативных песен. Во-вторых, анализ длины песен показал, что большинство из них имеют среднюю длину, однако есть несколько артистов, чьи тексты значительно длиннее остальных.

В целом, исследование доказывает, что поп-музыка — это жанр, который ориентирован на массовую аудиторию и в то же время достаточно разнообразен по тематике.

Описание применения генеративной модели

Работая над анализом данных и составлением диаграмм, я несколько раз обращалась к нейросети Chat GPT за советами по улучшению кода и за помощью с идеями оформления графиков, а также к нейросети Recraft.ai для генерации изображения для обложки проекта.

Все промпты, использованные в проекте, собраны в документе.

Источники

Ссылка на датасет smgriffin/modern-pop-lyrics

Ссылка на изображения для коллажа The 20 best pop albums of the 21st century

Генерация цветовой палитры на основе загруженного изображения Adobe Color

Генерация рекомендаций по улучшению кода и инструкций Chat GPT version 4.0

Генерация обложки проекта Recraft.ai

Анализ текстов поп-песен через визуализацию данных
3
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more