
Введение
В поисках подходящего датасета я наткнулась на интересные данные о фильмах и их рейтингах. На сайте kaggle.com я решила взять их на анализ, чтобы сделать их более понятными для личного изучения.
В данном проекте я использовала следующие типы диаграмм: столбчатая, круговая, точечная, линейная, графическая.
Оформление

Логотип «IMDb»
В качестве визуального решения я решила выбрать стиль оформления инфографики сайта с крупнейшей в мире базой данных о кинематографе — IMDb, а именно цветовую палитру: желтый, черный и белый для стилизации графиков.
Цветовая палитра «IMDb»
IMDb Gold
Hex code #F5C518 RGB values (245, 197, 24) CMYK values (4, 21, 98, 0) Pantone® 7406
White
Hex code #FFFFFF RGB values (255, 255, 255) CMYK values (0, 0, 0, 0) Pantone® Pantone White
Black
Hex code #000000 RGB values (0, 0, 0) CMYK values (75, 68, 67, 90) Pantone® Pantone Black
Обработка данных
1. Загрузка
для начала я считала файл датасета csv
2. Обработка данных
файл загружается в pandas с помощью pd.read_csv («top_rated_movies.csv»). дата выхода фильма (release_date) преобразуется в формат datetime (pd.to_datetime), используя параметр errors='coerce', чтобы избежать ошибок. из даты выхода извлекается год (data['year'] = data['release_date'].dt.year). Подсчитываются пропущенные значения в датафрейме (data.isnull ().sum ()).
Визуализация данных
1. Распределение количества фильмов по годам
Распределение количества фильмов по годам
На основе графика распределения количества фильмов по годам можно сделать несколько выводов:
На графике видно, что в последние десятилетия выпускается больше фильмов, это свидетельствует о развитии киноиндустрии, доступности технологий и увеличении спроса на контент. Спады связаны с войнами, экономическими кризисами или другими глобальными событиями, влияющими на производство фильмов.
К примеру, в последнее время на графике можно отметить спад количества фильмов, что говорит о прямом влиянии пандемии, смене форматов (переход на сериалы, стриминговые платформы).
2. Распределение фильмов по рейтингу
Распределение фильмов по рейтингу
На основе круговой диаграммы распределения фильмов по рейтингу можно сделать следующие выводы:
Это ожидаемо, так как большинство фильмов попадают в диапазон «средних» оценок, отражая сбалансированное распределение оценок зрителей.
Высокие оценки получают только действительно выдающиеся фильмы, которые понравились широкой аудитории.
3. Рейтинг ниже 6 встречается довольно редко, потому что в среднем фильмы оцениваются на 6-7.9
3. Изменение среднего рейтинга фильмов по годам
Изменение среднего рейтинга фильмов по годам
Этот график показывает изменение среднего рейтинга фильмов по годам и позволяет сделать несколько выводов:
1. Ранние годы кино (до 1920-х):
Видим сильные колебания в начале 1900-х годов. Это связано с небольшим количеством фильмов в те годы. В 1910–1920-х годах заметен резкий спад, что, возможно, связано с экспериментальным периодом в киноиндустрии.
2. Золотой век Голливуда (1930–1950-е):
В 1930–1950-е годы рейтинг фильмов остается стабильно высоким (около 7,5–7,8). Это период расцвета Голливуда, когда создавались культовые фильмы, которые и сейчас имеют высокий рейтинг.
3. Спад в 1970–2000-х годах:
Снижение рейтингов с 1960-х годов связано с увеличением количества фильмов и их разнообразием. В 1980–2000-х годах рейтинг падает к 7.0 и ниже, возможно, из-за роста массового кинопроизводства, появления франшиз и коммерческого кино, ориентированного не столько на качество, сколько на кассовые сборы.
4. Современный рост (2010-е — 2020-е):
В последние годы (с 2010-х) наблюдается рост среднего рейтинга, что связано с развитием потоковых сервисов, улучшением качества контента и увеличением количества нишевого авторского кино.
4. Топ-10 популярных фильмов
Топ-10 популярных фильмов
Для создания этого графика была выведена формула с помощью Chat-GPT
Формула взвешенного рейтинга
5. Зависимость рейтинга от количества голосов
Зависимость рейтинга от количества голосов
1. Популярные фильмы имеют стабильные рейтинги
В области с большим количеством голосов (например, более 10 000) разброс рейтингов значительно уменьшается. Это говорит о том, что чем больше голосов у фильма, тем более объективный и устойчивый его рейтинг.
В зоне до 5000 голосов рейтинг фильмов варьируется от 4 до 9 баллов. Это может указывать на то, что у менее популярных фильмов оценки более субъективны и могут зависеть от узкой аудитории.
Можно заметить небольшое количество фильмов с высокими рейтингами (8.5+) и большим числом голосов. Такие фильмы, скорее всего, являются культовыми, классикой или имеют широкую поддержку аудитории.
4. Фильмы со средними рейтингами (6–8) составляют большинство
Большинство точек расположено в этом диапазоне, что говорит о том, что основная масса фильмов получает именно такие оценки. Это подтверждает тенденцию к тому, что большинство картин вызывают смешанные или положительные, но не выдающиеся отклики. Итоговая зависимость между рейтингом и популярностью
Можно сказать, что у фильмов с большим количеством голосов редко встречаются очень низкие оценки (ниже 5), что может свидетельствовать о естественном отборе: плохие фильмы просто не набирают большой зрительской базы.
Заключение
В ходе данного проекта мне удалось преобразовать те типы данных, которые были слишком сложны для изучения, в более легко-читаемые и доступные виды представления информации.
Описание применения генеративной модели
Для своего проекта я использовала Chat-GPT-4-Turbo. Он помог мне в написании частей кодов, придумывании формулы «Взвешенного рейтинга» и вставлении её в код, помог с исправлением ошибок в кодах, которые возникали.
Ссылка на модель: https://chatgpt.com/
Для генерации обложки также была использована нейросеть.
Ссылка на модель: https://www.recraft.ai