
Многие языковые модели на промптах по умолчанию без особых модификаций оставляют в тексте шаблоны.
А ещё они посильно мимикрируют под человека: пишут гладко и убедительно. Редакторам, преподавателям и аналитикам это создаёт новую проблему: как понять, кто автор текста — человек или нейросеть?
AI-детекторы вроде бы есть, но чаще всего они выдают вердикт без объяснений, «я так чувствую». Но можно отреверсить этот процесс и понять, на чём модель попалась. Например, один из простых способов — параллельная генерация по началу блока. Если дальше текст очень предсказуем, то, вероятно, ваш промпт был не очень и модель спалится.
Но куда эффективнее оказалось искать другие закономерности.
Появление языковых моделей сделало генерацию текстов рутиной. Но там, где раньше алгоритмы выдавали сухие и топорные машинные фразы, современные LLM воспроизводят стилистику и ритм человеческой речи.
Ну, пытаются.
Модели любят пользоваться классическими риторическими приёмами, но порой перебарщивают. Например, параллелизм — когда повторяются одинаковые конструкции. Вместо простого «В магазине есть хлеб, молоко и сыр», модель может написать: «Здесь есть хлеб, здесь есть молоко, здесь есть сыр». Другой частый приём — антитеза, противопоставления в стиле «не просто, а», «не только, но»: «Это не просто фильм, а событие». Когда такой оборот встречается в тексте единожды или дважды — ок, почему бы и нет, но модели готовы подытоживать так каждый абзац.
Интересно, что влияние моделей на стиль не ограничивается только текстом. В академических выступлениях и подкастах после запуска ChatGPT резко выросло употребление слов, характерных для моделей — таких как delve, comprehend, swift и meticulous.
Каждая новая версия крупной LLM умеет чуть больше и чуть лучше. Вместе с ростом качества вырос и соблазн. Стало слишком легко выдавать машинный текст за свой. Домашки, дипломы, пресс-релизы, новостные заметки, посты в соцсетях — всё это генерируется за пару минут. Раньше списывание было более трудоёмким, надо было хотя бы найти и отрерайтить чужой текст.
Антиплагиат тут бессилен: модель не копирует, а создаёт условно оригинальный текст. Появился спрос на системы, которые могут определить, кто на самом деле автор — человек или машина.
Однако существующие решения, такие как GPTZero и классификаторы OpenAI, имеют свои ограничения и не всегда обеспечивают высокую точность.
Они опираются на комбинацию методов:
Статистические метрики вроде перплексии — это такие численные показатели, которые показывают, насколько текст для модели «ожидаемый» или «странный». Если модель легко угадывает, какое слово дальше, — метрика низкая. Если слова оказываются неожиданными, — метрика высокая.
Лингвистические эвристики — простые правила, например, «подсчитать, сколько в тексте сложных слов или повторов». Не очень эффективны для текущего поколения LLM.
Очень хорошо показал себя принцип вычленения признаков. Берут активации одного слова, затем суммируют активации всех признаков по всем словам. В итоге для каждого текста получается один вектор-отпечаток, который показывает, какие признаки в нём доминируют. Дальше они обучали стандартный, но эффективный классификатор XGBoost на этих отпечатках на базе заведомо человеческих и заведомо LLM-ных текстов. Детекторы на базе разреженных автоэнкодеров работают лучше, чем те, что используют «сырые» данные из нейросети. Это подтверждает, что SAE действительно находит что-то важное.
Для синтетики брали датасет COLING 2025 Shared Task, дополненный текстами от нескольких моделей — Gemma, GPT, LLaMA. Это нужно, чтобы признаки не были привязаны к одной архитектуре.
Есть и другие слабые места. Например, лёгкая обманчивость — достаточно перефразировать, заменить синонимы или чуть укоротить фразы, и многие детекторы теряют часть признаков, на которых они обучены, из-за чего падает точность классификации. Или зависимость от обучающих данных — если детектор учился на текстах GPT-3, то GPT-4 уже может пройти мимо него незамеченным.

Примеры
3608. Текст содержит слишком сложные, вложенные и грамматически громоздкие предложения. Он может выглядеть «умнее» или «научнее», чем нужно. Активируется на числах, скобках, словах вроде neighborhood (соседство, окрестность) в научном контексте. При усилении этого признака модель начинает генерировать короткие, обрывистые предложения, а при ослаблении — неестественно запутанные.
4645. Избыточная сложность подачи информации и безапелляционность. Текст подаётся как очень убедительный и авторитетный, даже если информация в нём спекулятивная или неточная. Нейросеть создаёт видимость «глубоких знаний», используя сложные формулировки для простых идей. Реагирует на фактические противоречия или когда модель пытается «блефовать», соединяя несвязанные факты.
6587. Многословные вступления и перечисления. Этот признак отвечает за структурирование текста с помощью длинных введений и маркированных/нумерованных списков. Текст часто начинается с фраз «Во-первых...», «Для начала рассмотрим...» и т.д. Сильно активируется на номерах пунктов в списках и вводных словах.
8264. Повторение мыслей. Нейросеть повторяет одну и ту же идею несколько раз, используя разные синонимы и формулировки. Это создаёт ощущение «переливания из пустого в порожнее». Активируется на длинных, общеупотребительных словах, которые типичны для стиля GPT.
14161. Излишняя формальность. Текст написан в слишком формальном, канцелярском стиле, даже когда это неуместно (например, в неформальном отзыве).
8689, специфично для GPT-семейства. Чрезмерное использование синонимов. Модель активно заменяет слова синонимами, что иногда делает текст неестественным и «вымученным». Это попытка избежать прямых повторений, но она сама по себе становится узнаваемым артефактом, и это легко считывается.
Для домена научных статей, 12390. Чрезмерно сложный синтаксис. Активируется на связующих конструкциях, типичных для академических текстов.
Для домена инструкций, 1416. Неуместные «философские» объяснения. Вместо того чтобы давать чёткие и простые инструкции, модель пускается в метафорические или абстрактные рассуждения. Экстремальные значения этого признака появляются, когда в тексте есть ошибки парсинга — пропущены формулы или символы.
6513, специфичен для финансов. Избыточные объяснения за очевидными фактами. Модель добавляет ненужные детали и личные мнения к фактам, которые этого не требуют. Реагирует на фразы вроде I mean (я имею в виду), like (типа) и другие разговорные конструкции, выражающие мнение.
14953, для медицины. Неуместный тон (инструкции во втором лице). Текст использует прямой, поучительный тон, обращаясь к читателю на «вы» или «ты» («Вы должны...», «Вам следует...»). Это часто встречается в медицинских или юридических инструкциях. При усилении этого признака модель начинает генерировать тексты, похожие на юридические консультации, независимо от исходного запроса.
Для домена reddit, 4560: спекулятивная причинность. Модель строит преувеличенные или необоснованные причинно-следственные связи. Это часто встречается в неформальных дискуссиях. Усиление этого признака приводит к появлению фраз вроде «Изобретение огня напрямую привело к современной цивилизации».
То есть такими категориями можно описать как просто плохие SEO-тексты, так и тексты, сгенерированные моделями. Но некоторые признаки очень характеры для конкретных моделей в конкретных доменах, а их сочетание уже позволяет составить отпечаток.
Исследователи также проверили устойчивость признаков к попыткам обмана. Простые трюки вроде замены слов на синонимы, перестановки частей предложения или добавления пробелов перед знаками препинания могут сбить многие классификаторы. В эксперименте с датасетом RAID (любыми нарративными атаками) выяснилось, что самые важные признаки классификатора почти не пересекаются с простыми ловушками. В то же время устойчивыми оказались признаки, связанные со структурой предложений, распределением длины фраз и частотой грамматических конструкций — изменить их можно только при серьёзной переработке текста.
В результате получился каталог почерков моделей, который можно использовать не только для детекции, но и для… ну, скажем, обратной инженерии стиля.
С его помощью можно выделять «твёрдые» сигнатуры, которые сложно скрыть, и одновременно выявлять уязвимые места, через которые машинный текст можно маскировать.
Детекция и управление стилем
Признаки, которые извлекает SAE, можно использовать не только для классификации текста, но и для прямого управления стилем генерации — так называемого feature steering. Проще говоря, модели можно задавать стиль: например, «убери длинные вступления, переходи сразу к делу» или «добавь больше разнообразия в словарный запас, но без фанатизма».
Технически это работает так: из автоэнкодера берут вектор признака и во время генерации добавляют его с определённым коэффициентом к скрытым состояниям модели. Это позволяет усиливать или подавлять конкретные стилистические черты. Например, при повышении активации одного признака растёт безапелляционность текста, а при снижении другого исчезают длинные вводные. Для понимания функций этих признаков использовали GPT-4 как интерпретатор — он анализировал сдвинутые тексты и помогал сопоставить признаки с их эффектами.
Такой подход открывает множество возможностей. Например, чтобы корпоративный бот звучал как живой человек, достаточно ослабить признаки, которые выдают модель. Можно усилить определённые маркеры, и тогда она будет говорить как занудный профессор, весёлый блогер или бюрократ. Также можно создавать адаптивные детекторы, которые настраиваются под конкретные типы текстов — научные статьи, новости или переписку в мессенджерах.
Почему это важно
Преподаватель может показать студенту конкретные языковые маркеры, а студент — оспорить их или исправить. Ну или честно признаться. Редактор может не просто сказать «текст писала нейросеть», а попросить автора переписать конкретные места — убрать повторы и сократить канцелярщину. Аналитик может быстрее находить и классифицировать сгенерированные новости, фейки и комментарии. Исследователь получает инструмент для анализа «мышления» LLM через доступ к её внутренним сигнатурам. То есть понимание того, какие именно внутренние признаки коррелируют со стилем текста, — шаг к созданию более управляемых и безопасных систем.
Однако у метода есть ограничения. Для работы требуется хранить и обрабатывать все активации модели, что плохо масштабируется на крупные LLM. Кроме того, слишком агрессивное вмешательство может исказить смысл текста.
Ирония в том, что технология, задуманная для борьбы с искусственным текстом, стала инструментом, который помогает делать генерацию более управляемой. А SAE, как оказалось, — отличный способ разобрать модель на части и кастомизировать под конкретную задачу.