Есть ли ответ на вопрос «Почему AI любит добавлять в тексты много длинных тире?» / forpes.ru

Главная
Есть ли ответ на вопрос «Почему AI любит добавлять в тексты много длинных тире?»

Есть ли ответ на вопрос «Почему AI любит добавлять в тексты много длинных тире?» +13

10.11.2025 07:10

maratillyasov 10 515 Источник

В AI-текстах так часто используется длинное тире, что на эту тему пишут статьи вида «Длинное тире — признак СhatGPT». Некоторые люди, которым оно нравится, перестали его использовать из страха, что на их тексты поставят клеймо «Сделано AI». Некоторые пишут статьи с объяснениями, что длинное тире (англ. em dash, m-dash) — это не признак текста, написанного моделями. При этом на удивление сложно заставить модели не добавлять в текст длинные тире, о чём свидетельствует ветка на форумах OpenAI, где пользователи делятся своими неудачными попытками.

Почему AI так часто использует длинное тире? Есть гипотезы, что модели любят использовать длинное тире из-за экономии, или потому, что текст становится более структурированным, или всё из-за доступных материалов в сети, в которых часто встречается длинное тире. Объяснений много, но есть ли хоть одно убедительное?

Объяснения, которые я считаю неубедительными

Одно из распространённых объяснений состоит в том, что в обычном английском тексте много длинных тире, поэтому ИИ просто перенял такое поведение из обучающих данных.

Я считаю подобные утверждения довольно неубедительными по той причине, что все думают, что AI часто использует длинные тире. Если бы длинные тире в текстах от AI встречались так же часто, как и в текстах людей, они были бы такими же незаметными, как и другие знаки препинания.

Другое объяснение, которое меня не убеждает, заключается в том, что AI нравятся длинные тире, потому что они универсальны.

Когда модель пытается предсказать следующий токен, длинное тире оставляет пространство для манёвра: оно может либо продолжить мысль с того же места, либо начать новую мысль. Поскольку модели просто пытаются выбрать следующий наиболее вероятный токен, могут ли они просто «перестраховываться», используя длинное тире?

Я так не думаю.

Во-первых, другие знаки препинания обладают такой же гибкостью.
Во-вторых, я не уверен, что «перестраховываться» — это подходящая идиома для описания того, как модели генерируют текст.

Есть мнение, что модели используют длинное тире по той причин, что при обучении моделей явно учитывается стремление к краткости, а длинное тире очень эффективно с точки зрения количества токенов.

Насколько я могу судить, играя с токенизатором OpenAI, длинное тире само по себе не особо эффективно с точки зрения экономии токенов, хотя без него и приходится подбирать выражения на замену. Но всё равно объяснение неубедительно, потому, что тире иногда можно просто заменить запятой, которая не менее лаконична.

Не думаю, что GPT-4o настолько ориентирован на краткость, что проводит микрооптимизацию в отношении пунктуации: если бы он хотел использовать меньше токенов, он мог бы просто меньше болтать...

Может быть дело в африканском английском?

Одна из гипотез, которую я изучал достаточно подробно, гласит, что использование длинного тире (em-dash) может отражать местный диалект английского языка, на котором говорят работники RLHF (Reinforcement Learning from Human Feedback).

Заключительный этап обучения языковой модели включает в себя RLHF: обучение с подкреплением и обратной связью от человека. По сути, сотням тестировщиков платят за то, что они взаимодействуют с моделью и оценивают её результаты, которые затем используются для улучшения модели и повышения её эффективности.

Компания, которая оплачивает эту работу, заинтересована в том, чтобы эту работу выполняли носители английского языка. Но они не обязательно должны жить в США или Англии, потому что там труд очень дорог. Сотрудники могу жить в странах наподобие Кении или Нигерии, откуда компания OpenAI, собственно, и нанимала людей (подешевле).

Но одно интересное следствие такого решения заключается в том, что африканский английский отличается от американского или британского. Например, в африканском английском слово «delve» используется чаще, и это объясняет то, почему GPT-4o так любит слово «delve» (и другие красивые слова, такие как «explore» и «tapestry»).

Но часто ли в африканском английском используется длинное тире? Если да, то африканские работники RLHF должны были высоко оценивать ответы с использованием тире. Тогда бы мы и нашли объяснение нашей загадке.

Но я не думаю, что этот ответ соответствует действительности. Я взял набор данных с текстами на нигерийском английском и измерил частоту использования длинных тире в словах. Длинные тире составляли 0,022 % от всех слов в наборе данных.

А вот в этой статье о частоте использования знаков препинания в английском тексте в целом, приводятся данные о том, что сейчас длинное тире используется в 0,25–0,275 % случаев. Цитата из статьи:

«Использование тире увеличилось после 1750 года и достигло своего пика в 1860 году (около 0,35 %). Далее процент использования стал снижаться вплоть до 1950-х годов, после чего колебался в пределах от 0,25 % до 0,275 %. Частота использования знаков препинания, рассчитанная в рамках текущего исследования, соотносится с количеством слов в корпусах текстов»

Сейчас нигерийский английский, который достаточно хорошо отражает уровень пунктуации в африканском английском, менее склонен к использованию длинных тире, чем современный английский

По этой причине я не думаю, что чрезмерное использование длинных тире и «delve» в вызваны одним и тем же механизмом.

Оцифровка печатных книг

У меня есть одно интересное наблюдение касательно длинных тире — GPT-3.5 их не использовал, GPT-4o использовал примерно в 10 раз больше длинных тире, чем его предшественник, с GPT-4.1 всё было ещё хуже.

Однако модели Anthropic и Google используют длинные тире. Даже китайские модели с открытым исходным кодом используют длинные тире. Что изменилось с ноября 2022 года по июль 2024 года?

Единственное, что изменилось, — это состав обучающих данных. В 2022 году OpenAI почти наверняка обучалась на смеси общедоступных интернет-данных и пиратских книг с таких сайтов, как LibGen. Однако, как только мощь языковых моделей стала очевидной, AI-лаборатории быстро поняли, что им нужно больше высококачественных обучающих данных, а это означало необходимость сканирования большого количества печатных книг.

Только сотрудники OpenAI знают, когда в OpenAI начали сканировать книги (и начинали ли вообще). Например, судя по публикациям после судов, Anthropic начали активно загружать печатные книги в феврале 2024 года. Разумно предположить, что и OpenAI делала нечто подобное, потому что в период с 2022 по 2024 год обучающие данные изменились и стали включать в себя множество печатных книг.

Помните приведённое выше исследование частоты использования знаков препинания, которое показало, что наибольшее количество длинных тире приходится на 1860 год? Я думаю, что вполне правдоподобной гипотезой будет то, что для моделей оцифровывали не пиратские книги, а старые — XIX века.

Интуитивно понятно, что пиратский контент смещён в сторону современной и популярной литературы, потому что именно её люди и хотят скачивать. Если бы AI-лаборатории хотели выйти за эти рамки, им пришлось бы покупать более старые книги, в которых, вероятно, было бы больше длинных тире. Теперь мы подошли к тому, что, на мой взгляд, является наиболее правдоподобным объяснением того, почему модели так любят длинные тире:

Современные модели используют печатные книги конца 1800-х — начала 1900-х годов в качестве высококачественных обучающих данных, а в этих книгах используется примерно на 30 % больше длинных тире, чем в современной английской прозе.

Вот почему так сложно заставить модели перестать использовать длинные тире: они изучали английский по текстам, в которых их было достаточно много!

Я хочу поблагодарить блог Марии Сухаревой за то, что она обратила моё внимание на этот момент. Я не согласен с ней в том, что длинное тире предпочтительнее с точки зрения структуры, по причинам, которые я кратко изложил выше, но я думаю, что она вполне вероятно права в том, что использование длинного тире связано с цифровизацией.

Более конкретные примеры и аналогичную точку зрения вы можете найти в этом посте, где показано, сколько длинных тире используется в некоторых классических произведениях. В моей любимой книге «Моби Дик» целых 1728 многоточий!

Резюмируя

Существует три основных категории возможных объяснений того, почему модели так часто используют тире.

Первая категория — это структурные объяснения, в которых утверждается, что авторегрессионные модели по своей сути предпочитают длинное тире, потому что оно экономит токены, сохраняет возможность выбора или делает что-то ещё. Я не считаю это убедительным, потому что GPT-3.5 не злоупотреблял длинными тире.

Вторая категория — это объяснения, связанные с RLHF. В них утверждается, что люди, оценивающие текст, предпочитают длинное тире, потому что оно более разговорное или чаще встречается в том варианте английского языка, на котором говорят пользователи RLHF. Я думаю, что аргумент о варианте английского языка не выдерживает критики, но аргумент о том, что длинное тире более разговорное, может быть верным. Трудно сказать, какие доказательства могли бы подтвердить или опровергнуть эти утверждения.

Третья категория — это объяснения, основанные на обучающих данных: в них утверждается, что длинное тире встречается только в обучающих данных. Я не считаю это универсальным объяснением, но мне кажется вероятным, что оно может быть чрезмерно представлено в некоторых высококачественных обучающих данных: в частности, в печатных книгах начала XX века. В целом я считаю это самым убедительным объяснением.

Заключительные мысли

Рассуждения во многом основаны на предположениях, потому что никто не может дать ответ на этот вопрос абсолютно точно (кроме OpenAI).

Возможно, я ошибаюсь в том, когда именно компания OpenAI начала оцифровывать письменный текст. Если они сделали это до выхода GPT-3.5, то тире появились явно не по данной причине.

Безусловно, современные модели заражены «болезнью длинного тире» (по крайней мере частично) из-за обучения на результатах работы других моделей. Либо они намеренно обучаются на синтетических данных, либо просто не могут избежать поглощения огромного количества контента, созданного AI, наряду с другими интернет-текстами.

Но я всё ещё кое-что не понимаю: если длинное тире распространено, потому что оно характерно для литературы конца 1800-х — начала 1900-х годов, то почему проза, написанная искусственным интеллектом, не похожа на «Моби Дика»? Возможно ли, что модели перенимают фрагменты старой английской прозы, например пунктуацию, но при этом создают текст, звучащий современно?

Я также могу ошибаться в том, что у недавно оцифрованного контента будут более ранние даты публикации. Вполне вероятно, что пиратские книги будут более современными, но может ли это перевешиваться количеством старых книг, находящихся в общественном достоянии?

Возможно, есть и более простое объяснение популярности тире: например, длинное тире просто выглядят более разговорными, поэтому их предпочитали пользователи RLHF, и это создало порочный круг, в котором появлялось всё больше и больше длинных тире? Это как-то согласуется с отрывком из интервью Сэма Альтмана, где он говорит, что они добавили больше тире, потому что они нравились людям. Но как это утверждение доказать или опровергнуть я не знаю.

В целом я всё ещё удивлён тем, что нет единого мнения о причине появления одной из наиболее узнаваемых особенностей AI-текстов. Я думаю, что, скорее всего, прав в том, что причиной стала оцифровка произведений конца 1800-х — начала 1900-х годов, но было бы здорово, если бы кто-то, кто работал в OpenAI между выходом GPT-3.5 и GPT-4o (или кто-то, кто может знать об этом по какой-то другой причине), подтвердил, что именно это и произошло.

Другие гипотезы также не достаточно убедительны. Например, гипотеза, высказанная в комментариях на Hacker News: якобы за длинные тире несёт ответственность Medium , поскольку именно этот ресурс автоматически преобразует два дефиса в длинное тире, а Medium был источником высококачественных обучающих данных.

И даже если это утверждает генеральный директор Medium считает, мне это кажется совершенно неправдоподобным. Если бы люди часто использовали дефисы или двойные дефисы вместо длинных тире и вопрос звучал бы так: «Почему большие языковые модели используют длинное тире вместо дефиса?». Тогда я мог бы поверить в такое объяснение, связанное с типографикой. Но вопрос звучит так: «Почему большие языковые модели используют длинное тире в качестве знака препинания чаще, чем люди?».

По этой причине меня немного озадачивают комментарии, в которых в качестве возможных объяснений упоминаются Unicode, или обучение на русском языке, или типографические правила Википедии, или неправильно распознанные дефисы. Ничто из этого не может объяснить, почему модели любят длинные тире! Если во время обучения модель будет воспринимать дефис (например, в слове «double-crossed») как длинное тире, это не повысит вероятность того, что модель будет использовать длинное тире в качестве круглых скобок. Скорее, это повысит вероятность того, что модель будет использовать длинное тире в качестве дефиса.

Также подписывайтесь на Телеграм-канал Alfa Digital — рассказываем о работе в IT и Digital, делимся интересными вакансиями, новостями и полезными советами, иногда шутим.

Комментарии (10)

Elpi
10.11.2025 07:38
#29087964
1. Это вот как раз иллюстрация того, насколько молодые любят разводить теории на ровном месте:) Это же надо столько воды налить.
2. Существует и действует ГОСТ 2.105-2019 "Общие требования к текстовым документам". Там и регламентируется употребление такого тире.
3. Сделайте автозамену в Ворде (или Alt + 0151, что неудобно) и быстро привыкните соблюдать требования ГОСТа.
1. Vlad_06
  10.11.2025 07:38
  #29088270
  Все же, указанный вами ГОСТ распространяется на ЕСКД, и только, а не вообще на любой текст. Так можно дойти до того, что слово "таблица" требовать писать разрядкой - в госте же написано...
  Но - где вы там увидели регламентирование тире? Есть только три специфических кейса, где упоминается тире (но даже они без уточнения какое).

El_Gato_Grande
10.11.2025 07:38
#29087978
Ох уж эти страсти вокруг пунктуации и ИИ-контента. Ну есть же известные со школы правила, которые определяют, когда использовать дефис, когда среднее тире, когда длинное тире. Другой вопрос, что иногда неудобно вставлять эти самые длинные тире, скажем, в комментариях на Хабре или в переписке в телеге, потому что ни там, ни там не поддерживается автозамена. Но вот в гугл-доках запросто все делается.
1. maratillyasov Автор
  10.11.2025 07:38
  #29088006
  Согласен. Неожиданно стандартная грамотность стала признаком использования LLM.
  1. AdrianoVisoccini
    10.11.2025 07:38
    #29088498
    проблема в том, что у людей вызывает фрустрацию отсуствие реальной возможности отличить текст, сгенерированный ИИ от текста, написанного человеком. Если с видео, аудио и картинками есть как простые визуальные признаки типа 6 ппльцев и прочих артефактов, так ещё, есть и заметные косяки в метаинформации, шуме, паттернах, что ПОКА ЧТО позволяет програмно определять сгенерированный контент, то с текстом такая возможность просто отсутствует.
    Особенно остро проблема заметна на коротких интеракциях, например в комментариях - если ИИ написал буквально одну строчку из разряда "Здорово! Согласен с каждым словом, написанным в статье", то определить авторство принципиально невозможно
    Я как-то исследовал этот вопрос несколько месяцев назад - написал бота, который читал статьи тут на хабре и писал комментарии и даже отвечал дальше. В процессе я выяснил, что люди чаще всего не обращают внимание даже когда модель(а я использовал ужасно глючащий Гигчат по тому что бесплатно) выдавала явный бред, люди все равно не замечала подвоха и пытались уточнить.
    Правда статью администрация не пропустила...

CitizenOfDreams
10.11.2025 07:38
#29087998
На компьютере все эти десять размеров тире и пятьдесят оттенков кавычек только доставляют проблемы. Я как-то по глупости открыл текстовый конфиг в ЛибреОфисе и добавил в него строчку, после чего этот конфиг перестал работать - потому что кавычки, которые я напечатал, автоматически превратились в какие-то очень похожие по виду, но другие.
1. maratillyasov Автор
  10.11.2025 07:38
  #29088016
  Отказался от использования Либре из-за того, что подобно странно себя ведёт.

BigBrother
10.11.2025 07:38
#29088026
Всегда использовал длинное тире, задолго то ChaGPT — тексты с ними выглядят аккуратнее.

DKomaleev
10.11.2025 07:38
#29088096
Длинного тире ведь нет на клавиатуре и 99% людей понятия не имеют, как его вставить в текст. Оно может появиться в тексте только в результате правки профессиональным корректором, который знает как его вводит и, главное, где именно оно должно быть.
1. itt1b
  10.11.2025 07:38
  #29088524
  Вводится двойным дефисом, в Word и телеграме на автомате ставлю: клац-клац.
  
  А вообще, дичь конечно. Люди начинают писать хуже, чтобы не сойти за ИИ: тире, точки в конце сообщения, форматирование абзацев, заглавные.