Битва двух ёкодзун: почему детекторы ИИ и гуманизаторы делают тексты еще хуже / forpes.ru

Главная
Битва двух ёкодзун: почему детекторы ИИ и гуманизаторы делают тексты еще хуже

Битва двух ёкодзун: почему детекторы ИИ и гуманизаторы делают тексты еще хуже +2

06.05.2026 06:55

tutova_tut 3 1900 Источник

В век, когда абсолютно все площадки, включая Хабр, захлебываются под цунами сгенерированного контента, особенно ценными становятся статьи, написанные людьми. Только есть один нюансик: человеческий текст должен быть хорошим. А я как редактор часто становлюсь невольным свидетелем битвы двух ёкодзун: искусственного интеллекта с естественной халтурой. Чума на оба этих дома, честно говоря.

В этой статье хочу порассуждать на тему: любой ли сгенерированный контент плох с редакторской точки зрения и становится ли текст живого автора ценным лишь по факту своей «человечности»? Попутно мы разберем:

А как на самом деле работают детекторы ИИ и можем ли мы им доверять?
Стоит ли от греха подальше прогонять текст, который определяется как сгенерированный, через гуманизаторы, чтобы придать ему живого румянца?
Что делать, когда показания разных детекторов расходятся?

Охота на ведьм и корни моего баттхерта

Когда я была юна, а нейросети еще были в противозачаточном состоянии, каждый обитатель интернетов знал главное правило споров: не знаешь до чего докопаться — докапывайся до орфографии. С тех пор история совершила грандиозный скачок, и теперь, если вам не близка позиция автора, его надо обвинить в генережке и небогоугодной длине тире. Каюсь, сама так делаю иногда. Даже несмотря на то, что c 2022-го являюсь амбассадором разумного применения ИИ в редакционных процессах родной компании.

Я сказала РАЗУМНОГО. Опустите тапок и медленно толкните его ко мне ногой! Пока рано.

Некоторое время назад, агентство, которое мы в редакции рассматривали как аутсорс, принесло на публикацию материал, в котором, на мой взгляд, были проблемы. например, фактуру, которую мы сняли с наших экспертов, переврали, а количество повторов одних и тех же слов в пределах абзаца не выдерживало критики. Ко мне закрались подозрения, поэтому я засунула текст в детектор ИИ, получила подтверждение, что статья скорее всего сгенерирована и с полным удовлетворением пошла выражать свою озабоченность менеджеру. Вышло неловко, потому что другой детектор дал противоположный результат, а наехать на людей я уже успела. Автор же принес не какую-то бездушную ИИ-шницу, а просто плохой текст.

Меня тогда заинтересовало расхождение в показаниях детекторов, и я из любопытства засунула туда свой старый текст из 2014 года, и что вы думаете? Детектор и там нашел признаки генережки. Думаю, если вы не первый день зарабатываете буковками, то и в вашей практике такие вещи происходили: пишешь, страдаешь, героически выдерживаешь 100500 итераций правок и согласований, а в комментах потом…

*Тут я очень старалась сгенерировать Маэстро, но давайте просто признаем, что он и его гардероб неподражаемы*

Выходит такая картина: ИИ-тексты низкого качества яростно минусятся (поделом) и вызывают всеобщее недовольство. Детекторы продаются как инструмент защиты от ИИ-слопа, гуманизаторы — как способ обходить детекторы. Оба продуктовых рынка растут и кормят друг друга, но ни один из них не решает ключевой проблемы: низкого качества выходного контента.

«А что же профессиональные редакторы?», — спросите вы. А у нас работки только прибавилось, бэклог трещит по швам, потому что теперь частенько мы тот щит, который отделяет читателя от откровенного мусора в ленте. В век GPT каждый, считающий себя сведущим, суслик, стремится стать агрономом экспертного инфополя через текст. Не подумайте чего, никакого дисреспекта обладателям мощных резцов: некоторые из них вполне могут оказаться внушительными капибарами, а то и вовсе вомбатами при ближайшем рассмотрении!

Моя мысль в чем: писать стало проще, поэтому теперь до редакторов в принципе доходит больше готовых текстов разной степени качества, и тут уже мы вынуждены брать LLM в свои мощные редакторские лапищи, чисто чтобы справляться с возросшими объемами: суммаризируем транскрибации интервью, вырезаем лишнее, укладываем потоки сознания в более-менее логически стройный текст, фактчекаем по академическим источникам, проверяем на соответствие редполитике, используем для поиска дыр и слепых пятен в логике, ищем ошибки и опечатки, конечно, тоже. А вот здравый смысл машинам пока делегировать не удалось.

Раз уж мы волей-неволей все равно пользуемся ИИ, давайте немножечко засучим рукава и попробуем по-дилетантски поковыряться во внутренностях у решений для детекции и гуманизации генережки, чтобы ответить себе на вопрос: а судьи-то кто? Мы вообще можем им доверять? По каким метрикам происходит оценка ИИ-шности и насколько гуманны к текстам алгоритмы гуманизации? Да и вообще может ли быть хорош текст, если создавался при участии ИИ?

Как работают детекторы и можно ли их обмануть

Согласно наиболее расхожему объяснению, детекторы анализируют не «душу» и не стиль текстов, а конкретные статистические показатели. Я намеренно делаю эту оговорку про расхожесть, потому что:

А) Об этом заявляют сами некоторые производители продуктов (например вот и вот). А как оно на самом деле обстоит и у всех ли точно так же — тут уж свечку не держала. Но на всякий случай не исключаю, что вендоры не во всем могут быть откровенны с покупателями.

Б) Что-то мне подсказывает, что на деле алгоритмически все устроено несколько сложнее, и в комментариях за непозволительные упрощения мою панамку господа технари закидают отнюдь не ромашками.

Так что же на самом деле анализируют детекторы? Первый параметр — perplexity, непредсказуемость. Это показатель того, насколько модель «удивится», встретив следующее слово в предложении. Человеческие тексты считаются более непредсказуемыми: автор может ввернуть неожиданную метафору, опечататься, забыть запятую, не к месту поставить двоеточие, пошутить, в конце концов. О том, как у LLM обстоят дела с шутками, я уже писала. При создании текста искусственно каждое следующее слово выбирается как наиболее статистически вероятное по отношению к предыдущему (в заданном контексте, разумеется).

Perplexity человеческого и машинного текстов наглядно: текст, сгенерированный ИИ, окрашен в насыщенный синий цвет по всему объему, что свидетельствует об однородно низких значениях perplexity (модель не удивлена). Текст написанный человеком преимущественно голубой и содержит выраженные красные всплески — а это уже burstiness (источник) — Perplexity человеческого и машинного текстов наглядно: текст, сгенерированный ИИ, окрашен в насыщенный синий цвет по всему объему, что свидетельствует об однородно низких значениях perplexity (модель не удивлена). Текст написанный человеком преимущественно голубой и содержит выраженные красные всплески — а это уже burstiness (*источник*)

Второй важный параметр — burstiness, вариативность структуры. Это маркер того, насколько текст ритмически нестабилен. Человеческий контент похож на стихию: длинное сложносочиненное предложение, потом короткое, инверсия, риторический вопрос, междометие. LLM чеканит предложения как метроном: 7-10 слов, подлежащее-сказуемое-дополнение, абзацы и пункты списков примерно равны по величине, структура предопределена жанром и нет в ней места для лирических отступлений про то, как высоко небо над Аустерлицем.

А теперь, господа знатоки, внимание, вопрос — можно ли обмануть детектор, заложив в промпт более экзотическую лексику, указание склеить короткие предложения в одно, убрать маркированные списки и щедро посыпать результат опечатками? Конечно можно. Не призываю вас верить мне на слово, пройдемте-с к коллайдеру!

Генерируем машинный текст и узнаем, как он определяется

Я в качестве упражнения попросила DeepSeek порассуждать об истинной природе отношений Лолиты и Гумберта на 100 слов. И вы знаете, по содержанию мне не в чем ему возразить. Разве что я бы растеклась мыслью про «нервную систему» текста, о которой упоминал сам Набоков, и о ненадежном рассказчике… Но это вкусовщина. Результат предсказуем: GPTZero видит в нем 100% генережки.

Для надежности смотрим: а другие детекторы чего? Они согласны? А вот и нет! Turnitin и ZeroGPT уверены, что тут и так все натуральное.

А вот Гигу не проведешь. Что же, тем интереснее: наконец-то достойные противники!

Дорабатываем ИИ-напильником

Я немножко колдую над промптом и выбираю в качестве модели Claude Sonnet, на мой субъективный вкус она чуть лучше работает для русского языка и выдает меньше смысловой «кальки» с английского. Вот что я у нее прошу:

Выполни рерайт следующего текста таким образом, чтобы его невозможно было распознать как сгенерированный. Для этого:
- Используй предложения разной длины. Добавь парцелляцию там, где это уместно.
- Не используй длинное тире там, где это не предусмотрено стандартными требованиями русской пунктуации.
- Избегай обобщений, литературных и нейросетевых клише.
- Добавь опечатки и неразрывные пробелы после одиночных предлогов.

И представьте себе, даже после настолько ленивых директив GPTZero уже не видит разницы с человеческим текстом.

Суть текста, как и факт того, что он сгенерирован, не поменялись. Зато появились артефакты вроде «детсва». Гига, правда, продолжает держать оборону и ругаться и на этот фрагмент тоже. Но, чтоб не тратить ваше время, думаю, мы можем условно написать ЧТД в нашей теореме и двинуться к ответу на вопрос, который у вас наверняка созрел.

Почему расходятся показания

Детекторы объединяют показатели perplexity и burstiness в итоговую оценку вероятности генерации. В каких пропорциях каждый из показателей на это влияет — большой вопрос, скорее всего, у каждого поставщика решений они свои. Однако большинство разработчиков заявляют, что их продукт определяет генережку с точностью в 98–99%, а количество ложных срабатываний при этом не превышает 1%. А теперь давайте подумаем, что может быть не так с этой математикой?

Да примерно всё. По данным независимых исследований, мы имеем следующее:

В исследовании 2024 года взяли 100 оригинальных академических текстов (созданных до эпохи ИИ) и еще по 100, написанных с помощью ChatGPT и Claude. Детекторы сочли 27.2% оригинальных текстов сгенерированными.
Исследовательская группа из Стэнфорда, анализируя 91 TOEFL-эссе, пришла к выводу, что детекторы ИИ систематически дискриминируют авторов, для которых английский не является родным языком. 97.80% эссе носителей китайского были помечены как ИИ по меньшей мере одним детектором (всего их было семь). Вина всему — природно низкая перплексия текстов иностранных студентов.
Проблему с ложноположительными результатами отмечают и в работе, опубликованной в International Journal for Educational Integrity. Там при стопроцентно человеческом корпусе текстов уровень ложных срабатываний достиг 50%.

Особенно мне, конечно, нравится результат последнего эксперимента: то есть вероятность определить ИИ-шницу с помощью детектора не сильно отличается от случайного подбрасывания монетки.

Итого: разные детекторы, дают разную оценку одному и тому же тексту, при этом чаще определяют человеческий контент как сгенерированный. Доходит до смешного: в Forbes получила огласку история, где в детектор засунули Декларацию независимости США и получили вердикт, что она на 98,51% сгенерирована ИИ, несмотря на то, что была написана до изобретения GPT как таковых, а заодно компьютеров и лампочки Эдисона.

Добавьте к этому то, что минимальные изменения в сгенерированном тексте, не меняющие общий смысл сказанного, способны полностью изменить «мнение» детектора, и мы получим однозначный вердикт — детекторам доверять нельзя.

Возникает вопрос: а почему тогда разработчики сервисов позиционируют свои продукты как надежные? Неужто врут? И да, и нет. У них как у Игоря Николаева…

Причина № 1. Особенности конкретных детекторов и генераторов

Тут все относительно просто: детекторы, натренированные на текстах ChatGPT будут хорошо детектить знакомое, но плохо определять генережку, написанную любой другой LLM. Скорее всего с этим связано то, что в моем примере GPTZero перестал детектить ИИ после рерайта Claude.

Причина № 2. Разные датасеты

Почти каждый сервис публикует точность по собственным датасетам. Как у нас обычно проводится машинное обучение? Есть обучающий датасет с разметкой (что такое хорошо и что такое плохо) и валидационный датасет, когда мы знаем, что такое хорошо, и что такое плохо, а модель еще нет. Если на валидационном датасете модель один раз из 100 принимает человеческий текст за ИИ-шный, с чистой совестью пишем 1% ложных срабатываний. Но ни один датасет не отражает всего существующего в мире многообразия текстов, и одному Ктулху известно, к какой категории отнесет система непохожий текст, если столкнется с ним. Ну то есть производитель может писать, что его модель на 100% точна, но перепроверьте эту цифру на любом другом валидационном датасете и упс! Выяснится, что либо точность заявленной не соответствует, либо ложных срабатываний намного больше, чем должно быть.

Причина № 3. Отсутствие альтернативного способа верификации

Вот давайте предположим, что мы пытаемся отличить оригинальную картину от репродукции. На нее может посмотреть искусствовед и сказать, что такими мазками Сезанн не писал, например. Мы можем взять пробы краски и установить по составу, пользовались в то время такими или нет. Мы можем провести изотопный анализ и сверить его с дендрохронологическими данными древесины подрамника, чтобы установить, когда вероятнее всего была написана картина.

А в случае с текстом достоверного способа доказать, кто автор, у нас нет. Можно попытаться встроить «цифровые водяные знаки» в генератор, как это делает Google SynthID. Но практика показывает, что они легко уничтожаются даже банальным парафразером. Можно выполнить лингвистическую экспертизу и с определенной долей уверенности сказать: в какой исторический промежуток был написан текст, написал ли два текста один и тот же человек и является ли конкретный человек автором конкретного текста. Но способа однозначно определить «машинность» по самому тексту пока не придумали. Валидация возможна только на искусственно созданных датасетах, а значит, любые заявления вендоров про «accuracy в реальных условиях» методологически недоказуемы, потому что см. причину № 2.

Причина № 4. Естественно низкая перплексия и тонкости пороговой классификации

Несмотря на то, что в «сердце» всех решений для детекции всего два параметра, порог, после которого сервис начинает с подозрением относиться к текстам, у всех разный.

У некоторых человеческих текстов низкая перплексия является естественной: вы же не ожидаете от договора найма жилого помещения интригующей завязки, неожиданного финала, откровенности романов Генри Миллера или формы как у Марселя Пруста? А такой перплексией часто обладают юридические документы, рецепты, пресс-релизы, детские книжки, отчеты о продажах, сообщения в мессенджерах. Если детектор «заточить» на слишком низкий порог (чтобы отлавливать все случаи ИИ), он начнет безжалостно отбраковывать юристов, поваров и бухгалтеров. Если поднять порог — пропустит «нетворческие», но все же сгенерированные студенческие работы. А мы же хотим загнать универсальное решение как можно большему количеству людей, правда?

Вот пара хрестоматийных случаев, когда сильные заявления производителей детекторов внезапно взяли и проверили.

При запуске в апреле 2023 года сервис Turnitin заявлял о менее 1% ложных срабатываний. Решение приобрели многие университеты для борьбы со сгенерированными академическими работами, однако, через шесть недель реального использования, стало понятно, что:

даже 1% ложных срабатываний — это слишком много, когда речь идет о 38 млн проверяемых работ, ведь тогда выходит, что 380 000 студентов будут обвинены в читерстве безосновательно;
при элементарном эксперименте выясняется, что процент ложных срабатываний на самом деле выше. По подсчетам самого сервиса — около 4% (неангажированные эксперты насчитали намного больше);
после широкой огласки и отказа многих институтов от инструмента, разработчикам пришлось на ходу менять формулировки и оправдываться в блоге. Теперь они заявляют, что ложных срабатываний «менее 1% при наличии ≥20% ИИ-текста».

Компания Workado LLC, базирующаяся в Аризоне, продавала ИИ-детектор Content at Scale AI за $49 в месяц, рекламируя его маркетологам, студентам и издателям как надежный способ отличить текст ChatGPT от человеческого. Центральный маркетинговый тезис — точность 98,3%. Компания утверждала, что детектор обучен на широком корпусе: блог-постах, Wikipedia, ИИ-текстах, и поэтому «подходит для любого типа контента». В ходе проверки Федеральной торговой комиссией США (FTC) было установлено аж три слоя вранья:

компания не разрабатывала модель сама, а взяла готовую модель норвежских студентов с Hugging Face;
на самом деле модель обучалась только на академических абстрактах и текстах ChatGPT;
на неакадемических текстах точность модели составила 53,2% (чуть лучше чем монетка).

Но справедливости ради, некоторые решения по-честному учитывают особенности разных жанров и поэтому предлагают нишевые продукты или более тонкие настройки с учетом отрасли применения.

Причина №5. Бабки, бабки, [собака женского пола], бабки!

Рынок ИИ-детекции — это вам не академическая среда с высоким уровнем peer-review, строжайшими требованиями к дизайну экспериментов и способам фиксации результата. Это индустрия, где завышенные цифры точности конвертируются в продажи. Методология, с помощью которой получены впечатляющие результаты, практически никогда не раскрывается, максимум напишут: «мы взяли X человеческих текстов и Y ИИ-текстов». А что за тексты? Какого жанра? Какой длины? Из какого источника? Какими инструментами генерировали ИИ-шную часть? В равной ли мере представлены тексты разных жанров? Здесь вам никто не ответит.

Можно ведь взять очевидно плохие экземпляры ИИ-текстов (монотонные, с литрами «воды» и без пост-редактуры). И очень удобные человеческие (без корректуры, с ошибками, разговорные). Тут любой детектор покажет accuracy 97–99%. А потом эту цифру вынесут в коммерческое предложение и на главную страницу сайта, приговаривая под нос «ну допустим, мы умалчивали, недоговаривали, но лжи как таковой ее не было»…

Гуманизатор: друг, враг или как

Представим ситуацию: к вам на редакторский стол попадает текст. Где-то автор выгранивал алмазы мыслей сам, где-то ему помогали нейросетки. Но вот беда, детектор считает материал 100%-нейрослопом. Как быть? Огребать в комментах от аудитории или на планерке начальства не хочется. И вот уже рука сама тянется к гуманизатору…

Опустим вопрос о том, насколько вообще разумна идея доверять машине сделать свои тексты более человеческими. Попробуем выяснить: а что гуманизаторы вообще такое и чего делают? Если очистить от маркетинговой шелухи то, что написано на сайтах сервисов (я брала заявления Humaniser и Bypass GPT), делают они примерно следующее:

Подмена вокабуляра. Гуманизатор заменяет ожидаемые ИИ-словечки менее предсказуемыми синонимами. В целом дело хорошее, сама так поступаю, когда хочу добавить тексту яркости или прикрыть запашок генерации. Но тут важно быть осторожным, иначе может получиться «гоблинский перевод».
Реструктуризация синтаксиса. LLM обычно склонны к прямому порядку слов и предложениям схожей длины. Гуманизаторы добавляют инверсии (Йоды мастера стиль), длинные предложения разбивают на короткие, пересыпают какими-нибудь короткими ударными фразочками и вуаля.
Инъекции несовершенств. Вот за это я, как редактор, больше всего не люблю гуманизаторы. Они буквально добавляют грамматические ошибки, странные обороты и кривые знаки препинания там, где их не предполагалось! Вы что думаете, я сама не справлюсь с тем, чтобы проморгать запятые и облажаться с типографикой?! Я между прочим профессионал.
Коррекция тональности. Обычно делает текст менее (в редких случаях более) формальным. Но и тут не без греха. Предположим, у нас была ИИ-шная курсовая по теме «Особенности использования античных сюжетов во французском классицизме», написанная от лица условного третьекурсника. После обработки гуманизатором она по лексике и стройности изложения скорее всего будет соответствовать сочинению восьмиклассника, которому в принципе и знать не надо, кто такие Корнель и Расин.

В 2025 году исследовательская команда из Pangram Labs задалась вопросом: насколько при обработке гуманизатором меняется качество текста и можно ли обучить детектор так, чтобы он оставался устойчивым к любому гуманизатору?

Ребята действительно основательно подошли к исследованию. Они провели аудит рынка гуманизаторов, отобрали 19 инструментов и вручную изучили, как они меняют текст. Далее классифицировали гуманизаторы по уровню качества получившихся текстов. Полную таблицу можно найти в их публикации, но если коротко, распределение получилось примерно такое:

Уровень	Характеристика	Примеры
L1 (лучшие)	Сохраняют тон, словарный уровень и сложность	DIPPER, Grammarly, Quillbot, StealthGPT
L2 (средние)	Деградируют качество, сохраняют смысл	AIHumanizer.com, BypassGPT, Surfer SEO
L3 (худшие)	Добавляют бессмыслицу, ломают синтаксис, вставляют несуществующие цитаты	Undetectable AI, Humbot AI, HumanizeAI.io

И вот ведь сюрприз: оказалось, что ни один из гуманизаторов в среднем не улучшает текст. Лучшие из лучших лишь ухудшают его незначительно.

А теперь зацените, как этот чудовищный Уроборос пожирает сам себя: люди генерируют огромное количество так себе текстов с помощью ИИ. В попытке обойти бан ИИ-контента пихают что ни попадя в гуманизатор и получают плохой ИИ-контент, замаскированный под плохой человеческий контент. Плохой псевдочеловеческий контент из интернета попадает в обучающие выборки новых поколений ИИ, что вызывает коллапс моделей…

Скорее всего дата-инженеры и дата-сайентисты уже придумали, как решать проблемы коллапса, но я-то не они и хочу воспользоваться правом поиронизировать над ситуацией.

Ну и что со всем этим делать

Тут, наверное, каждый для себя должен ответить сам. Ваш ответ мне было бы искренне интересно почитать в комментариях, но для себя я вывела следующие правила.

Правило 1. Если применение LLM неизбежно, никогда не генерировать текст с нуля единым полотном. Ни-ког-да!

Это как мыть руки перед едой — гигиеническая необходимость. Задайте роль, аудиторию, можно даже площадку, на которой планируете выходить. Предельно конкретизируйте часть текста, которая вам нужна, и задачу, которую он выполняет. Из-за особенностей процесса машинного обучения валидаторы склонны оценивать длинные тексты как более хорошие, поэтому многие модели раздувают объем из ничего, жертвуя смыслом, а нам этого не надо. Нам, например, нужно получить вменяемое завершение SEO-статьи про PostgreSQL не более чем на 800 знаков с пробелами.

Правило 2. При генерации всегда подгружать образец желаемого стиля.

Меня раздражает стерильная беззубость сгенерированных текстов, в которой как будто бы нет места для таких человечных вещей, как дурачество, бравада, игра с читателем. Поэтому перед генерацией я всегда «даю понюхать» нейросетке что-то из своих текстов, которые меня уже устраивают. Поразительно, но при таком подходе генераторы уже часто детектят результат как человеческий контент. Если достойных образцов нет, стоит хотя бы сломать ритм и подправить вокабуляр того, что вам выплюнула нейросеть.

Правило 3. В вопросах фактов всегда должна действовать презумпция вранья.

Машины удивительно складно врут. Поэтому каждый факт, который выдает нам нейросеть, мы считаем сомнительным, пока не докажем обратное. Все факты просим подтвердить источниками, а потом идем и вручную перепроверяем. Если источник слишком большой, суем его в другую нейросеть и просим суммаризацию по тем пунктам, которые нам интересны. А то вот выдает вам DeepSeek цифру и ссылку на исследование, в результате которого она получена, вы переходите по ссылке и выясняется, что исследование вообще на другую тему, DOI машина просто сгенерила, а цифры выдумала, потому что они выглядели правдоподобно. Если лень перепроверять вручную, натравите одну нейронку на другую, пусть фактчекает, так риск буллшита хоть немного, но снижается.

Правило 4. Если текст говорит то же самое, что первая страница Google, его не стоит публиковать.

Иногда полезно задавать себе вопросы. А этот текст вообще стоит внимания читателя? Он сообщает что-то новое, чего человек не смог бы загуглить? Он дает какое-то новое видение или нестандартную точку зрения? Он помогает решить задачи вот этого конкретного человека по ту сторону экрана? А что-то кроме решения задачи он ему предлагает? Если ничего из этого нет, то зачем нарушать безмолвие?

Если текст получается бледноват, это знак, что лучше потратить дополнительное время на добавление отраслевой специфики, живых примеров, выводов самостоятельных исследований, интервью с нишевыми экспертами, кристаллизацию авторской позиции в конце концов.

Правило 5. Гуманизатор — это негуманно.

Ни по отношению к тексту, ни по отношению к читателю, ни по отношению к развитию технологий. Хороший текст имеет высокую perplexity и burstiness не потому что их туда искусственно вкрутили, а потому что там есть конкретика, живой взгляд, нестандартные повороты и свойственные текстам живых людей шероховатости. Поскольку первые пункты ИИ не всегда может имитировать, ему остается только снижать качество текста, выдавая это за человечность. Ну помните, как в «Парфюмере» главный герой смешивал запах человека, используя кошачьи неожиданности, подгнивший сыр и рыбные потроха? Вот тут примерно то же самое. У меня бывали случаи, когда один и тот же текст до вычитки корректором детектор воспринимал как живой, а после как сгенерированный: мол, слишком аккуратно, чтобы быть правдой.

Возможно именно сейчас в меня полетят заранее заготовленные тапки, за то что я в принципе не порицаю использование LLM как таковое. Но тут вот какой момент: я не питаю иллюзий, что у современного человека, в частности, человека который решил по той или иной причине написать статью для Хабра, есть время и достаточно прокачанные навыки письма, чтобы писать все вручную от первой до последней буковки. Мы на техническом ресурсе, у этих людей обычно помимо задачи сообщить что-то случайным людям в интернете есть реальная работа. Например, проектировать архитектуру сетей, писать код, тестировать программы на баги, выверять UI. Конкретно я не настолько важная персона, чтобы требовать от их текстов одновременно достоверности, прикладной ценности, литературного совершенства и еще и того, чтобы они хорошенько настрадались в процессе написания. Потому что писать — это как минимум навык, а как максимум — отдельная работа. Если человек последние несколько лет осваивает не его, а новые языки программирования и фреймворки, то ну и слава богу, пусть пользуется любыми доступными инструментами, лишь бы ему было удобно и итог получился понятным и полезным. А что думаете вы, господа присяжные?

Комментарии (3)

OlegZH
06.05.2026 07:11
#29933418
В век, когда абсолютно все площадки, включая Хабр, захлебываются под цунами сгенерированного контента, особенно ценными становятся статьи, написанные людьми.

Ой-е! Сейчас на Вас набросятся! ;-)

в противозачаточном состоянии,

в генережке и небогоугодной ...

мы сняли с наших экспертов,

...

Ко мне закрались подозрения,

Это так изначально писалось живой нейронкой (молодо, зелено и "животворно"?) или было добавлено на "постпродакшене" нейронкой искусственной (в пандан, так сказать, теме самой статьи)? И это я ещё сдерживаю себя и не слишком "выёживаюсь". А то я могу вспомнить свою сетевую молодость и включить полемический задор на полную катушку. ;-)
1. tutova_tut Автор
  06.05.2026 07:11
  #29933522
  Предпочитаю использовать собственные нейронные связи во всех случаях, когда не показано иное :)
  1. OlegZH
    06.05.2026 07:11
    #29933598
    Но тут вот какой момент: я не питаю иллюзий, что у современного человека, в частности, человека который решил по той или иной причине написать статью для Хабра, есть время и достаточно прокачанные навыки письма, чтобы писать все вручную от первой до последней буковки
    
    А какой смысл поручать писать статью нейронке? Да, я понимаю, заманчивая игрушка. Очень хорошо экономить время, наверное, но лишает удовольствия от сворачивания мыслей в предложения, от эстетического наслаждения результатами работы. Хотя... да... можно представить себе некий пластиковый интернет, где нет живых людей, а есть только нейронки. Одно сплошное ~~телевидение~~ Википедия.