Анализ данных по фильмам on HSE Design
Original size 1133x1600

Анализ данных по фильмам

PROTECT STATUS: not protected
5

Введение

В поисках подходящего датасета я наткнулась на интересные данные о фильмах и их рейтингах. На сайте kaggle.com я решила взять их на анализ, чтобы сделать их более понятными для личного изучения.

В данном проекте я использовала следующие типы диаграмм: столбчатая, круговая, точечная, линейная, графическая.

Оформление

big
Original size 1200x605

Логотип «IMDb»

В качестве визуального решения я решила выбрать стиль оформления инфографики сайта с крупнейшей в мире базой данных о кинематографе — IMDb, а именно цветовую палитру: желтый, черный и белый для стилизации графиков.

0

Цветовая палитра «IMDb»

IMDb Gold

Hex code #F5C518 RGB values (245, 197, 24) CMYK values (4, 21, 98, 0) Pantone® 7406

White

Hex code #FFFFFF RGB values (255, 255, 255) CMYK values (0, 0, 0, 0) Pantone® Pantone White

Black

Hex code #000000 RGB values (0, 0, 0) CMYK values (75, 68, 67, 90) Pantone® Pantone Black

Обработка данных

1. Загрузка

для начала я считала файл датасета csv

2. Обработка данных

файл загружается в pandas с помощью pd.read_csv («top_rated_movies.csv»). дата выхода фильма (release_date) преобразуется в формат datetime (pd.to_datetime), используя параметр errors='coerce', чтобы избежать ошибок. из даты выхода извлекается год (data['year'] = data['release_date'].dt.year). Подсчитываются пропущенные значения в датафрейме (data.isnull ().sum ()).

Original size 1265x295
Original size 1263x539

Визуализация данных

1. Распределение количества фильмов по годам

0

Распределение количества фильмов по годам

На основе графика распределения количества фильмов по годам можно сделать несколько выводов:

  1. Рост количества фильмов с течением времени

На графике видно, что в последние десятилетия выпускается больше фильмов, это свидетельствует о развитии киноиндустрии, доступности технологий и увеличении спроса на контент. Спады связаны с войнами, экономическими кризисами или другими глобальными событиями, влияющими на производство фильмов.

К примеру, в последнее время на графике можно отметить спад количества фильмов, что говорит о прямом влиянии пандемии, смене форматов (переход на сериалы, стриминговые платформы).

2. Распределение фильмов по рейтингу

0

Распределение фильмов по рейтингу

На основе круговой диаграммы распределения фильмов по рейтингу можно сделать следующие выводы:

  1. Большинство фильмов имеют средний рейтинг (6.0–7.9)

Это ожидаемо, так как большинство фильмов попадают в диапазон «средних» оценок, отражая сбалансированное распределение оценок зрителей.

  1. Фильмов с высокими рейтингами (8.0+) меньше

Высокие оценки получают только действительно выдающиеся фильмы, которые понравились широкой аудитории.

3. Рейтинг ниже 6 встречается довольно редко, потому что в среднем фильмы оцениваются на 6-7.9

3. Изменение среднего рейтинга фильмов по годам

0

Изменение среднего рейтинга фильмов по годам

Этот график показывает изменение среднего рейтинга фильмов по годам и позволяет сделать несколько выводов:

1. Ранние годы кино (до 1920-х):

Видим сильные колебания в начале 1900-х годов. Это связано с небольшим количеством фильмов в те годы. В 1910–1920-х годах заметен резкий спад, что, возможно, связано с экспериментальным периодом в киноиндустрии.

2. Золотой век Голливуда (1930–1950-е):

В 1930–1950-е годы рейтинг фильмов остается стабильно высоким (около 7,5–7,8). Это период расцвета Голливуда, когда создавались культовые фильмы, которые и сейчас имеют высокий рейтинг.

3. Спад в 1970–2000-х годах:

Снижение рейтингов с 1960-х годов связано с увеличением количества фильмов и их разнообразием. В 1980–2000-х годах рейтинг падает к 7.0 и ниже, возможно, из-за роста массового кинопроизводства, появления франшиз и коммерческого кино, ориентированного не столько на качество, сколько на кассовые сборы.

4. Современный рост (2010-е — 2020-е):

В последние годы (с 2010-х) наблюдается рост среднего рейтинга, что связано с развитием потоковых сервисов, улучшением качества контента и увеличением количества нишевого авторского кино.

4. Топ-10 популярных фильмов

0

Топ-10 популярных фильмов

Для создания этого графика была выведена формула с помощью Chat-GPT

0
Original size 555x189

Формула взвешенного рейтинга

5. Зависимость рейтинга от количества голосов

0

Зависимость рейтинга от количества голосов

1. Популярные фильмы имеют стабильные рейтинги

В области с большим количеством голосов (например, более 10 000) разброс рейтингов значительно уменьшается. Это говорит о том, что чем больше голосов у фильма, тем более объективный и устойчивый его рейтинг.

  1. Фильмы с малым количеством голосов имеют разброс оценок

В зоне до 5000 голосов рейтинг фильмов варьируется от 4 до 9 баллов. Это может указывать на то, что у менее популярных фильмов оценки более субъективны и могут зависеть от узкой аудитории.

  1. Редкие высокорейтинговые фильмы с большим числом голосов

Можно заметить небольшое количество фильмов с высокими рейтингами (8.5+) и большим числом голосов. Такие фильмы, скорее всего, являются культовыми, классикой или имеют широкую поддержку аудитории.

4. Фильмы со средними рейтингами (6–8) составляют большинство

Большинство точек расположено в этом диапазоне, что говорит о том, что основная масса фильмов получает именно такие оценки. Это подтверждает тенденцию к тому, что большинство картин вызывают смешанные или положительные, но не выдающиеся отклики. Итоговая зависимость между рейтингом и популярностью

Можно сказать, что у фильмов с большим количеством голосов редко встречаются очень низкие оценки (ниже 5), что может свидетельствовать о естественном отборе: плохие фильмы просто не набирают большой зрительской базы.

Заключение

В ходе данного проекта мне удалось преобразовать те типы данных, которые были слишком сложны для изучения, в более легко-читаемые и доступные виды представления информации.

Описание применения генеративной модели

Для своего проекта я использовала Chat-GPT-4-Turbo. Он помог мне в написании частей кодов, придумывании формулы «Взвешенного рейтинга» и вставлении её в код, помог с исправлением ошибок в кодах, которые возникали.

Ссылка на модель: https://chatgpt.com/

Для генерации обложки также была использована нейросеть.

Ссылка на модель: https://www.recraft.ai

Анализ данных по фильмам
5
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more