
ВВЕДЕНИЕ
Я хотел проанализировать такой феномен в Твиттере как Канье Уест. Проанализировать частоту твитов их тональность показалось мне достаточно интересным.
Данные я нашел в свободном доступе на kaggle: https://www.kaggle.com/datasets/konradb/kanye-west-tweets
ЭТАПЫ РАБОТЫ

Для выполнения графиков я не выбирал определенные цвета и оттенки, мне кажется это лишнее.
Первое что я бы хотел узнать с помощью анализа данных это частоту твитов Канье Уеста
tweets_per_day = tweets_df.groupby (tweets_df['date'].dt.date).size ()
plt.figure (figsize=(12, 6)) sns.lineplot (data=tweets_per_day, marker='o', color='gold') plt.title («Частота твитов Канье Уэста», fontsize=16, fontweight='bold', color='black') plt.xlabel («Дата», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.xticks (rotation=45) plt.grid (color='lightgray', linestyle='--', linewidth=0.5) plt.tight_layout () plt.show ()
Потом я решил выяснить какая тональность у его твитов.
tweets_df['sentiment'] = tweets_df['text'].apply (lambda x: TextBlob (x).sentiment.polarity)
print («Средняя тональность:», tweets_df['sentiment'].mean ())
plt.figure (figsize=(8, 5)) sns.histplot (tweets_df['sentiment'], bins=30, kde=True, color='purple') plt.title («Распределение тональности твитов», fontsize=16, fontweight='bold', color='black') plt.xlabel («Тональность», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.tight_layout () plt.show ()
Потом решил проанализировать его слова паразиты или самые популярные слова фигурирующие в его твитах.
def clean_text (text): return re.sub (r'[^\w\s]', '', text.lower ()) tweets_df['clean_text'] = tweets_df['text'].apply (clean_text)
word_counts = Counter (' '.join (tweets_df['clean_text']).split ()).most_common (20) print («Наиболее часто встречающиеся слова:») print (word_counts) plt.figure (figsize=(10, 6)) words, counts = zip (*word_counts) sns.barplot (x=counts, y=words, palette='viridis') plt.title («Наиболее часто встречающиеся слова в твитах», fontsize=16, fontweight='bold', color='black') plt.xlabel («Частота», fontsize=12) plt.ylabel («Слово», fontsize=12) plt.tight_layout () plt.show ()
И в завершающем этапе я решил посмотреть временной ряд твитов.
plt.figure (figsize=(12, 6)) sns.lineplot (data=tweets_per_day, marker='o', color='gold') plt.title («Временной ряд твитов Канье Уэста», fontsize=16, fontweight='bold', color='black') plt.xlabel («Дата», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.xticks (rotation=45) plt.grid (color='lightgray', linestyle='--', linewidth=0.5) plt.tight_layout () plt.show ()
ВЫВОД
Твиты Канье Веста, собранные в этом датасете, демонстрируют его активность и популярность в социальных сетях. Эти твиты, как правило, содержат эмоциональные или актуальные сообщения, которые вызывают сильную реакцию у пользователей. Визуализация помогает понять, какие темы и сообщения наиболее интересны его фолловерам, а также подчеркивает его значимость в медиапространстве.
БЛОКНОТ С КОДОМ И ДАТАСЕТ
Ссылка на ноутбук https://colab.research.google.com/notebooks/intro.ipynb