Original size 800x1058

Анализ лексического разнообразия в произведениях Толстого и Чехова

11

Описание

post

Я очень люблю слова и буквы, а также работать и анализировать большое количество текста! Поэтому:

При выборе темы и подбора соответствующего датасета я руководствовалась собственным интересом к русской литературе, а также значимых для меня писателей Льва Николаевича Толстого и Антона Павловича Чехова, чьи произведения восхищали меня. Толстой и Чехов — современники и они жили и видели почти одно и то же, однако у них были идеологические разногласия (особенно по вопросам религии и искусства). Но так или иначе они влияли друг на друга, особенно в культурной среде конца XIX века. Мне стало интересно проанализировать лексическое разнообразие в их произведениях, то как различается их язык повествования и с чем это связано.

Для своего проекта (для более честного анализа) я решила взять по одному произведению Толстого и Чехова: Смерть Ивана Ильича и Палата № 6 соответсвенно. Эти произведения относятся к позднему творчеству авторов, сопоставимы по объему и представляют художественную прозу высокого стиля.

big
Original size 1820x1024

Сгенерировано при помощи recraft.ai.промпт: create writers old Tolstoy with a very long beard and young Chekhov in a hat and mustache with a beard and pince-nez wrestle in the ring with boxing gloves

Для поиска датасета с текстами произведений русских классиков я использовала ресурс kaggle.com. На нем я нашла интересующую меня сборку произведений русских авторов и выбрала нужные мне для анализа произведения.

Для более полного анализа я использованы следующие типы диаграмм:

1. Столбчатая диаграмма 2. Облака слов (wordcloud) 3. Plot-box (ящик с усами) 4. Гистограмма 5. Корреляционная матрица

Эти виды графиков помогут мне в моем проекте наглядно представить информацию и легко воспринимать данные, которые будут мной описаны.

Стиль

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create a rack of old books with writing on them: L.N.Tolstoy and A.P.Chekhov.

Для определения общего стиля я взяла историческую фотографию Чехова и Толстого (из файла с текстами с Kaggle), а затем преобразовала ее по стилю в recraft.ai.

Выбрала самое удачное генерированное изображение, которое, по моему мнению, отражает связь с классической русской литературой и книгами (оно передает творческий характер, а также философские и вечные темы, которые затрагивают авторы в своих произведениях). Затем из него создала палитру цветов с помощью Adobe Color.

Все последующие изображения были сгенерированы также в recraft.ai — я создала им общий стиль по первому изображению (платформа это позволяет), чтобы все изображения имели общую стилистическую основу.

Original size 3508x1919

Оригинальная фотография Чехова и Толстого// Преображенное изображение с помощью нейросети recraft.ai

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create Tolstoy with a big and long beard and Chekhov with a short and black beard and pince-nez are sitting at a table drinking tea

Я спросила у чата gpt подойдут ли цвета, предложенные Adobe Color для этой темы, и он выдал мне описания цветов, которые действительно подходят для темы моего анализа, подчеркивают интеллектуальную глубину, классическую атмосферу и серьёзность исследования:

#111111 (Чернильная тьма) — идеально для основного текста или акцентов; передаёт строгость и академичность анализа. #585753 (Серый абзац) — хороший цвет для второстепенных элементов: меток, подзаголовков, графиков. Сдержанный, не отвлекает. #767571 (Бумажная пыль) — для фона диаграмм или интерфейса; нейтральный, тёплый, вызывает ассоциации с книгами. #D2CBBB (Льняной лист) — отлично подойдёт для подложек, аннотаций, визуализаций. Он добавляет «академического уюта». #D0A549 (Янтарный абзац) — идеален для выделения ключевых моментов, цитат Толстого или Чехова. Придаёт образу теплоту и уважение к классике.

Original size 4077x929

Палитра, созданная по обложке с помощью Adobe Color

Графики

Прежде, чем начинать работу, необходимо было «очистить» полученные текстовые массивы от «стоп-слов» и имен собственных, которые мешают при работе с анализом произведений.

После открытия текстов и применения библиотек я убрала все стоп-слова и имена собственные из текстов. (См. блокнот внизу страницы)

(1) Столбчатая диаграмма

Для начала я решила узнать какие же слова чаще всего повторяются в произведениях Толстого и Чехова. Выделила топ-10 слов у каждого автора и визуализировала их в графике.

Original size 989x490
Original size 989x490

Можно заметить, что язык писателей довольно схож. Так как темы произведений сходятся, соответсвенно они используют более менее похожие по смыслу слова. Однако можно заметить и некоторые различия:

У Толстого: Только — наиболее частотное слово. Это может указывать на склонность Толстого к использованию ограничений, уточнений и акцентированию внимания на чём-то одном. Также в частые слова входят Жизнь, дело и смерти. Это подчеркивает его интерес к вопросам жизни, ее смыслу и может указывать на тематику моральных вопросов и жизненного пути.

У Чехова: Сказал — наиболее частотное слово. Это может отражать чеховский акцент на диалогах и речи персонажей, что характерно для его драматических произведений и рассказов. Слова люди, человек, день, лет намекают на то, что Чехов часто описывает людей, повседневную жизнь, и течение времени.

(2) Облако слов

На этом графике видно уже гораздо больше слов, используемых автором. Однако в центре мы все еще видим самые частые слова, которые и задают тон всему произведению.

В облаке слов у Толстого доминируют слова, связанные с темами судьбы, времени, боли, раздумий, семейных отношений.

А у Чехова — появляются слова, связанные с больницей, врачами, человеческими страданиями, мелкими деталями быта и психологией.

Если в облаке Толстого много абстрактных понятий, философских терминов (это отражает сложность и глубину текста), то в облаке Чехова чаще встречаются бытовые и конкретные слова, отражающие реализм и приземленность.

Original size 790x432
Original size 790x432

Стоит обратить внимание на конкретные ключевые слова — насколько они отражают темы произведений?

Например, у Толстого часто появляются смерть, жизнь, страх, судьба. У Чехова — больница, врач, палата, человек, ум.

Если слово смерть в Толстом встречается очень часто, а у Чехова — больница и пациенты — это отражает разницу тем и настроений.

(3) Plot-box

При выполнении этого графика (опять-таки для более точного результата я использовала не уже очищенные тексты, а их оригинальные версия со «стоп-словами» и именами собственными). По графику можно увидеть, что у Чехова гораздо больше выбросов, чем у Толстого.

Это обусловлено тем, что Чехов часто использует в текстах более разнообразные слова — как короткие междометия и частицы, так и редкие длинные слова. Это увеличивает разброс длины. В его произведениях встречаются короткие слова (например, «да», «ну», «эх») и при этом иногда редкие, сложные термины — поэтому вариативность длины слов растёт.

У Толстого же стиль повествования более философский, строгий и более концентрированный: меньше редких слов и коротких частиц. Слова более ровной длины — его текст более однородный по лексике. Меньше резких колебаний — менее экспрессивный в плане длины слов.

Original size 855x547

(4) Гистограмма

Также мне стало интересно подтвердить свои догадки про длину предложений каждого автора. (Толстой — большие и длинные предложения, Чехов — краток и лаконичен).

По графику можно увидеть: у Толстого встречаются значительно более длинные предложения. В правой части графика видно, что Толстой использует предложения длиной до 70 слов, в то время как у Чехова таких длинных предложений практически нет.

Original size 1189x590

Этот график полностью подтверждает известные стилистические особенности Толстого и Чехова:

Толстой склонен к более длинным, развернутым предложениям, в которых часто используются сложные конструкции, описания и детали. Чехов же предпочитает более лаконичный стиль, с короткими и ясными предложениями.

(5) Корреляционная матрица

В корреляционной матрице можно увидеть низкую корреляцию между частотами слов у Толстого и Чехова: Значение корреляции между частотами слов (исключая стоп-слова, так как они бы усилили корреляцию, а мне нужен более точный анализ) у Толстого и Чехова составляет 0.35. Это указывает на слабую положительную связь между использованием ими слов.

Соответсвенно, это говорит нам о том, что Толстой и Чехов имеют частично похожую лексику, но при этом достаточно отличаются — что отражает их индивидуальный стиль и темы произведений.

Original size 569x490

Выводы

После визуализации всех графиков я могу сделать несколько выводов:

1. Оба автора используют богатый и насыщенный словарь, но у Толстого наблюдается чуть большее разнообразие. 2. Средняя длина предложений у Толстого значительно выше, что отражает его склонность к философским размышлениям, детализации и психологическим описаниям. У Чехова предложения короче, что соответствует его стремлению к лаконичности, драматичности и сдержанной иронии. 3. У Чехова преобладают слова, связанные с медициной, бюрократией и внутренней изоляцией. У Толстого — это термины, связанные со смертью, душой, страданием и моральными переживаниями. 4. Без стоп-слов корреляция частот составила около 0.35, что говорит о различии авторских стилей и тематик, несмотря на общую принадлежность к классической русской прозе примерно одного периода. 5. Визуально можно заметить, что у Чехова ключевые слова более сосредоточены вокруг внешнего быта и социума, у Толстого — вокруг внутреннего мира и духовного кризиса.

Так, я выяснила, что произведения «Смерть Ивана Ильича» Толстого и «Палата № 6» Чехова, несмотря на общую тематику экзистенциального кризиса и болезненности бытия, различаются как по стилю, так и по лексике, формируя особый узнаваемый стиль каждого автора.

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create writers Tolstoy with a big beard and Chekhov with a languid beard sitting in a hospital ward in white straitjackets and reading book

P. S. Коды получились очень большими, поэтому я решила не вставлять их в лонгрид, чтобы визуально не нагромождать и сохранить лаконичность темы. В блокноте все подробно расписала с пояснениями :)

Описание применения генеративной модели

Использованные нейросети:

(1) Chat GPT — генерация описаний цветов, помощь в непонятных частях кода и помощь при устранении ошибок (2) DeepL — перевод предложений для промптов (3) recraft.ai — генерация картинок (4) Adobe Color — генерация цветовой палитры

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create a large and spacious but empty ward with no people in it, it’s very aloof and strict

Анализ лексического разнообразия в произведениях Толстого и Чехова
11
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more