Я — цифровой гуманитарий. Я не просто читаю стихи. Я разбираю на цифры и собираю заново — чтобы увидеть то, что скрыто от глаз: ритм, лексику, синтаксис, звуковую ткань.

Сегодня я сравню двух классиков:

Александра Пушкина, основоположника современного русского языка и Петра Ершова, создателя «Конька-Горбунка», мастера народной сказочной поэзии.

Ершов как автор известен одним своим произведением, «Конек-горбунок». Не раз слышал, что Ершов ничего и не писал, что «Конька» на самом деле написал Пушкин или сильно вмешался в работу Ершова. Не буду искать истину в этом споре, но противостояние двух авторов натолкнуло меня на идею цифрового сравнения. Кто из них пишет сложнее, богаче, образнее? Кто ближе к поэзии, а кто — к устному рассказу?

Как буду сравнивать стиль?

Я взял «Конька-горбунка» и самый известный тест Пушкина, «Евгений Онегин». Проанализировал фрагменты текстов (по 10 000 символов) с помощью Python, используя следующие метрики:

1. Лексическое разнообразие (TTR) — отношение уникальных слов к общему числу слов.

2. Средняя длина предложения — индикатор сложности синтаксиса.

3. Распределение по частям речи — где больше глаголов, прилагательных, местоимений?

Более подробно разбор показан в моем видео https://dzen.ru/video/watch/69132bcfaedabb2e247560a7

Лексическое разнообразие TTR (англ. type/token ratio)это способ вычисления коэффициента, который позволяет определить отношение числа уникальных слов к общему числу слов в тексте. Коэффициент варьируется от 0 до 1. Теоретический 0 — это текст, где повторяется одно и то же словоупотребление бесконечно, а 1 — это текст, где все слова уникальны и не повторяются. Этот коэффициент имеет и недостаток - он не учитывает морфологическую разновидность слов, то есть слова разных частей речи могут быть учтены как разные типы, даже если являются однокоренными.

def analyze_text(text, name):
    sentences = sent_tokenize(text, language='russian')
    words = clean_words(text)
   unique_words = set(words)
    ttr = len(unique_words) / len(words) if words else 0
    avg_sent_len = sum(len(word_tokenize(sent, language='russian')) for sent in sentences) / len(sentences) if sentences else 0
    pos_counter = Counter()
    for word in words[:1000]:  
        parsed = morph.parse(word)[0]
        pos_counter[parsed.tag.POS] += 1

Что получилось?

Метрика

Пушкин

Ершов

Общее количество слов

1211

1509

Уникальных слов

913

873

TTR

0.754

0.579

Средняя длина предложения

23.7

19.4

По лексическому разнообразию Пушкин — чемпион.

 TTR = 0.754 у Пушкина — это очень высокий показатель. Это значит, что 75% его слов — уникальны. Почти нет повторов.

 У Ершова TTR = 0.579 — почти на 20% ниже. Нельзя сказать, что это плохо. Все же жанр «Конька-горбунка» это сказка, и такой коэффициент TTR типичен для устного повествования: слова повторяются, чтобы закрепить внимание, особенно у детей.

Сложность синтаксиса: длинные конструкции vs короткие строки.

Пушкин использует развёрнутые, музыкальные предложения с причастными оборотами, вводными словами и подчинительными связями. Это не случайность. Это стилистический выбор.

Распределение по частям речи: кто о чём говорит?

Пушкин: мир внутренних переживаний:

Часть речи

Частота

Существительные

331

Прилагательные

174

Местоимения

71

Наречия

69

Пушкин — мастер описания, характеристики, психологического портрета. 

Его тексты полны эпитетов, размышлений, внутренних диалогов.

Ершов: мир действия и событий.

Часть речи

Частота

Существительные

305

Глаголы

194

Частицы

86

Предлоги

67

Ершов — мастер действия.  Глаголы: «взял», «пошёл», «сказал».  Частицы: «и», «а», «но» — создают ритм сказочного повествования.

- Пушкин лидирует по уникальности и сложности.

- Ершов — по объёму текста и частоте действий.

Но кто же победил?

Пушкин говорит о человеке. Ершов рассказывает историю. Пушкин — мастер слова, мысли и интонации. Его стиль требует вдумчивого чтения. Ершов — мастер сюжета, ритма и образа. Его стиль создан для восприятия на слух и запоминания. Разница в стиле — это разница целей и жанров. Пушкин пишет высоким литературным стилем, для образованного читателя. Ершов захватывает внимание, развлекает, учит. Его читатели – дети и он придерживается народно-сказочного стиля.

Цифровой анализ не заменяет чтение. Но он расширяет его возможности. Теперь мы знаем не на уровне интуиции, а на уровне данных:

  • Пушкин действительно использует более богатый словарь.

  • Ершов действительно пишет проще и ритмичнее.

Пушкин — это язык. Ершов — это сказка.

Если тема вам интересна — пишите в комментариях. Буду рад обсудить, доработать, запустить новый эксперимент.

Комментарии (5)


  1. shovdmi
    17.11.2025 10:31

    А что будет если сравнить Ершова с самим собой, но в других его произведениях?

    Есть мнение, что самих изданий Конька-горбунка было несколько, и второе и следующие издания были поправлены Ершовым как владельцем авторского права. И текст первого издания может быть немного более Пушкинским, чем исправленный текст


  1. evgenyk
    17.11.2025 10:31

    А если для сравнения взять не Евгения Онегина, а пушкинские сказки?


  1. surly
    17.11.2025 10:31

    Я сначала, было, про другого Ершова подумал.


    1. CatAssa
      17.11.2025 10:31

      Код на "ершоле" vs "Я помню чудное мгновенье..."


  1. CatAssa
    17.11.2025 10:31

    Со "Сказкой о золотом петушке" Пушкина сравнивать, мне кажется, было бы более логично.