Исходный размер 1140x1600

Shop Customer Data: Раскрывая секрет похода в магазин

Описание

Получив задание, я стала размышлять над темой работы и выбором датасета. В один из дней я задумалась, мне стало интересно сколько покупателей приходит в рядовой магазин каждый день, какое количество денег они тратят? Ведь поход в магазин — наше обыденное дело, не так ли? Вот так я пришла к выбору темы этой работы. За выбором датасета я обратилась к сайту Kaggle. Выбор пал на датасет Shop Customer Data (https://www.kaggle.com/datasets/datascientistanna/customers-dataset). Он включает в себя всю необходимую информацию: порядковый номер покупателя, возраст, прибыль от него, пол и т. д. Приступим к анализу данных.

Ход работы

Для анализа данных я использовала Python 3.12 с сторонними библиотеками, как Pandas (inc Matplotlib), Seaborn, а так же mplcyberpunk для визуального стиля. Для визуализации данных я использовала различные виды диаграмм: ⦁ Диаграмма рассеяния ⦁ Столбчатая диаграмма ⦁ Гистограмма В ходе работы я занималась обработкой и анализом данных, а также их визуализацией. Я стремилась создавать графики, которые были бы не только содержательными, но и эстетически привлекательными, черпая идеи из современных минималистичных инфографик.

Цвет

Неоновые стандартные из библиотеки — mplcyberpunk, светло-фиолетовый, небесный и стандартные цвета при генерации графиков Matplotlib’ом.

Графики

В процессе работы я написала код так, чтобы все графики открывались единовременно. Да, это нагружает процессор при рендеринге графиков, но при этом можно сразу же смотреть все графики и сравнивать их. Первым обратим внимание на точечный график с отображением всей информации для наглядности. Здесь я сделала выборку по полу и ограничила количество клиентов на графике до 40 человек

big
Исходный размер 855x84

Следующий рассмотрим точечный график (диаграмма рассеяния) отношения возраста покупателей к их тратам (приходу в кассу). Тут ты можем понять, что в этом магазине в основном траты приходят на промежуток от 50.000-175.000 у. е.

Исходный размер 852x513

Так же для наглядности шкалу трат я разбила на цвета. Посмотрим, что вышло:

Исходный размер 843x540
Исходный размер 843x639

Затем мне стало интересно, с чем связаны такие большие расходы? Для этого я сделала выборку по 30 различным покупателям и сделала график, показывающий возраст и количество человек в семье. Сопоставив график расходов и количества человек в семье, мы можем сделать вывод, что большие траты связаны с большим количеством человек в семье.

Исходный размер 842x835

Далее я создала график плотности покупателей для того, чтобы понять, кто чаще ходит в магазин. Исходя из этого можно понять, что самые большие доходы магазина от людей возраста от 20-40 лет с большой семьей.

Исходный размер 761x809

Итог

Исследование позволило выявить интересные зависимости между различными характеристиками покупателя, такие как возраст и пол человека и количество человек в его семье. Этот вывод подтверждён, как визуальным анализом данных, так и построением трендовых зависимостей.

Подобный анализ данных особенно может быть актуален для новых открывающихся магазинов, так как и для уже больших и устоявшихся бизнесов, связанных с торговлей. Оно также помогает оптимизировать процесс оценки целевой аудитории, отобрать наиболее ценные параметры и предложить потребителю наилучший и подходящий продукт.

Датасет

Shop Customer Data: Раскрывая секрет похода в магазин
Проект создан 29.01.2025
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше