Original size 666x1000

KANYE WEST TWEETS

PROTECT STATUS: not protected
14

ВВЕДЕНИЕ

Я хотел проанализировать такой феномен в Твиттере как Канье Уест. Проанализировать частоту твитов их тональность показалось мне достаточно интересным.

Данные я нашел в свободном доступе на kaggle: https://www.kaggle.com/datasets/konradb/kanye-west-tweets

ЭТАПЫ РАБОТЫ

big
Original size 2161x2504

Для выполнения графиков я не выбирал определенные цвета и оттенки, мне кажется это лишнее.

Первое что я бы хотел узнать с помощью анализа данных это частоту твитов Канье Уеста

tweets_per_day = tweets_df.groupby (tweets_df['date'].dt.date).size ()

plt.figure (figsize=(12, 6)) sns.lineplot (data=tweets_per_day, marker='o', color='gold') plt.title («Частота твитов Канье Уэста», fontsize=16, fontweight='bold', color='black') plt.xlabel («Дата», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.xticks (rotation=45) plt.grid (color='lightgray', linestyle='--', linewidth=0.5) plt.tight_layout () plt.show ()

Original size 1184x584

Потом я решил выяснить какая тональность у его твитов.

tweets_df['sentiment'] = tweets_df['text'].apply (lambda x: TextBlob (x).sentiment.polarity)

print («Средняя тональность:», tweets_df['sentiment'].mean ())

plt.figure (figsize=(8, 5)) sns.histplot (tweets_df['sentiment'], bins=30, kde=True, color='purple') plt.title («Распределение тональности твитов», fontsize=16, fontweight='bold', color='black') plt.xlabel («Тональность», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.tight_layout () plt.show ()

Original size 784x484

Потом решил проанализировать его слова паразиты или самые популярные слова фигурирующие в его твитах.

def clean_text (text): return re.sub (r'[^\w\s]', '', text.lower ()) tweets_df['clean_text'] = tweets_df['text'].apply (clean_text)

word_counts = Counter (' '.join (tweets_df['clean_text']).split ()).most_common (20) print («Наиболее часто встречающиеся слова:») print (word_counts) plt.figure (figsize=(10, 6)) words, counts = zip (*word_counts) sns.barplot (x=counts, y=words, palette='viridis') plt.title («Наиболее часто встречающиеся слова в твитах», fontsize=16, fontweight='bold', color='black') plt.xlabel («Частота», fontsize=12) plt.ylabel («Слово», fontsize=12) plt.tight_layout () plt.show ()

Original size 984x584

И в завершающем этапе я решил посмотреть временной ряд твитов.

plt.figure (figsize=(12, 6)) sns.lineplot (data=tweets_per_day, marker='o', color='gold') plt.title («Временной ряд твитов Канье Уэста», fontsize=16, fontweight='bold', color='black') plt.xlabel («Дата», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.xticks (rotation=45) plt.grid (color='lightgray', linestyle='--', linewidth=0.5) plt.tight_layout () plt.show ()

Original size 1184x584

ВЫВОД

Твиты Канье Веста, собранные в этом датасете, демонстрируют его активность и популярность в социальных сетях. Эти твиты, как правило, содержат эмоциональные или актуальные сообщения, которые вызывают сильную реакцию у пользователей. Визуализация помогает понять, какие темы и сообщения наиболее интересны его фолловерам, а также подчеркивает его значимость в медиапространстве.

БЛОКНОТ С КОДОМ И ДАТАСЕТ

KANYE WEST TWEETS
14
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more