Американцы обожают играть на деньги и смотреть красочное шоу. Это самое примитивное и оттого ошибочное объяснение популярности программы The Price Is Right. Если вы никогда не видели эту передачу дневного американского телевидения, представьте себе многолетнюю светскую церемонию потребления, где зрителей зовут на сцену и награждают за умение ориентироваться в ценниках. Зритель из зала слышит заветную фразу «Come on down!», выбегает к подиуму и соревнуется в угадывании стоимости бытовых товаров.

Впервые формат появился в 50-х годах прошлого века, а в 1972 году The Price Is Right подобновили и начали транслировать днём по будням на канале CBS. Но идёт передача не в прайм-тайм, а в 10:00 или 11:00 утра. Несмотря на её странное время показа, знакома она всем американцам. Смотрят её не только пенсионеры и домохозяйки, её хотя бы раз видели затемпературившие дети, которые вместо школы остались дома.

Реальный секрет долгожительства программы — смешение доброжелательности ведущих, простоты правил с бытовой темой и разнообразные мини-игры. Одна из таких — Plinko, которая выглядит как детская забава. Участник получает плоские жетоны и, стоя наверху большой вертикальной доски со штырьками, сбрасывает их в прорези сверху. Жетон, ударясь о штырьки, хаотически меняет траекторию и внизу попадает в одну из девяти ячеек с разными суммами.


Игра Plinko стала частью The Price Is Right в 1983 году, но быстро стала одним из центральных символов шоу. Эта телевизионная версия доски Гальтона работает медленно и оставляет зрителю возможность попереживать за исход. Жетон падает несколько секунд, за ним наблюдать увлекательно.

Компонента случайности играет ключевую роль, но Plinko — это не рулетка. На каждом узле жетон может отклониться влево или вправо, и десятки этих микрорешений в сумме дают колоколоподобное распределение исходов. Центр сброса будет выпадать чаще, хотя нет никаких гарантий, что жетон не уйдёт в самый дальний край.

Plinko — яркая иллюстрация системы со множеством крошечных причин, каждая из которых может круто изменить исход. Реальные деньги рождаются из цепочки мелких столкновений. Насколько такая система управляема, насколько — нет?

Крайне желательно попасть в центральную ячейку, которая принесёт $10 000. Из книги «Solving The Price Is Right» Джастина Бергнера известно, что по статистическим наблюдениям за передачей вероятность этого составляет всего лишь 14,1 %, и если сбросить жетон ровно посередине (то есть в центральную дырочку), шанс успеха повышается до 23 %. Но это не единственная рекомендация, которую часто озвучивают.

Если рассматривать Plinko просто как реализацию доски Гальтона, управлять ходом жетона невозможно. Нет никакой возможности гарантировать конкретную сумму. Тем не менее у игроков выработался целый набор советов: бросать не в центр, а чуть в стороне от центральной щели, держать жетон ровно, аккуратно опускать в щель без дополнительного импульса и так далее.

Что важно, следование этим советам действительно немного меняет ход жетона. Однако это всегда смещение шансов, а не точное наведение. Вряд ли у кого-то вызывает вопросы, что чаще всего такие рекомендации — не более чем суеверия. Разве не очевидно, что управлять ходом этой круглой шайбочки невозможно?

Промптинг до ChatGPT

Некоторые такие системы построены не на механике, а на компьютерных алгоритмах. В таких случаях формируется иллюзия, будто есть простой способ выбить джекпот.

Текущая реальность, какой мы её знаем, началась 30 ноября 2022 года. Именно тогда открылся сервис ChatGPT. Никто не сказал вслух, что мир навсегда изменится на «до» и «после». Пользователям просто предложили пообщаться с чат-ботом. Подробных рекомендаций по промптингу написано не было — это было просто поле ввода текста и ответы от большой языковой модели (БЯМ).

OpenAI написала пост с объявлением о продукте, но там больше говорилось про ограничения инструмента, объяснялась дата отсечки знаний БЯМ и показывалось несколько примеров диалогов. Утверждалось, что ChatGPT безопаснее какой-то InstructGPT. Обыватель недоумевал: а что это? Какие-то идеи по составлению промптов можно было почерпнуть по подсказкам в интерфейсе.

В остальном пользователь был предоставлен сам себе. Руководство по промпт-инжинирингу OpenAI выпустит лишь через год.

Примеры из релизной версии интерфейса ChatGPT, 1 декабря 2022 года. Verge
Примеры из релизной версии интерфейса ChatGPT, 1 декабря 2022 года. Verge

Однако не нужно думать, что выработанных приёмов ещё не было. В сообществе изучения ИИ техники промптинга формировались ещё в эпоху изучения предобученных моделей.

Полезный ИИ получается в несколько стадий. Предобученная модель может только предсказывать следующий токен. Если предобученная БЯМ дообучится на множестве пар «инструкция → ответ», то получится instruct-модель, которая умеет отвечать на пользовательский запрос и следовать ему. Дополнительно её можно дообучить с подкреплением по обратной связи человека, чтобы улучшить поведение БЯМ.

До instruct-выравнивания модель умеет дописывать чужие тексты. Ну и толку с подобного инструмента? На самом деле с помощью разнообразных промптовых ухищрений возможно многое.

К примеру, как заставить предобученную БЯМ написать краткое изложение текста? Достаточно в конце добавить «TL;DR:» («too long; didn't read:», что означает «слишком длинно; не читал:») и дать ей дописать такой текст. Этот приём был описан в 2019 году в статье OpenAI про GPT-2. Дело в том, что в Сети за припиской «TL;DR:» всегда следует краткий пересказ, который пишется как из уважения к времени других форумчан, так и чтобы увлечь на чтение нескольких длинных абзацев текста. Такие краткие пересказы в одно-два предложения передают суть не только точно, но и интересно. В корпус предобучения GPT-2 входит WebText, датасет внешних ссылок на Reddit, поэтому интернет-культуру ИИ понимает прекрасно.

В следующие годы формируется понимание различия промптинга few-shot и zero-shot. Если модель видит прямо в тексте запроса несколько примеров задачи и её решения, то она копирует формат, стиль и даже стратегию решения (few-shot). Эти примеры выглядели как пометки «Q:» (question, вопрос) и «A:» (answer, ответ), где отвечающий отвечал на вопросы. Если примеров нет, догадываться приходится самостоятельно по одной лишь инструкции (zero-shot).

Одна из статей 2020 года в своём названии категорично заявила: «Языковые модели — few-shot – обучаемые» (arXiv:2005.14165). В терминологии работы это называлось «обучение внутри контекста» (in-context learning), что немного вводит в заблуждение: градиенты не обновляются, БЯМ просто запущена в режиме ответов и обобщает поведение по примерам.

Ещё через пару лет изобретают цепочку рассуждений. Работа про chain-of-thought prompting вышла в начале 2022 года (arXiv:2201.11903). В статье показали: если в примеры few-shot засунуть не только ответ, но и показать путь к нему — шаг за шагом, по цепочке рассуждений (chain of thought), — то крупные модели резко прибавляют в задачах арифметики, символических преобразований и здравого смысла.

Если в промпте кто-то просто отвечал на вопросы (слева), то предсказать ответ в лоб не получается. Если в примере кто-то размышлял, языковая модель будет продуктивно подражать и прорешивать школьную задачку. (arXiv:2201.11903)
Если в промпте кто-то просто отвечал на вопросы (слева), то предсказать ответ в лоб не получается. Если в примере кто-то размышлял, языковая модель будет продуктивно подражать и прорешивать школьную задачку. (arXiv:2201.11903)

Важно помнить, что это работало без превращения в instruct-модели. Даже БЯМ, которые просто предсказывают следующий токен (дописывают текст), — вовсе не отвечающие на вопросы услужливые помощники — реагируют на эти жанровые сигналы. Метки «TL;DR:» заставляли кратко излагать, «Q:»/«A:» вызывали режим ответа на вопросы, а если в примере было решение, модель копировала стратегию.

Однако переход на чат-боты уже начался в полную силу. Во второй половине 2021 года реализована идея дообучить предобученную БЯМ на большом наборе задач, каждая из которых записана как естественная инструкция. Это резко улучшало производительность в zero-shot. Занимались этим исследователи BigScience в проекте T0 (arXiv:2110.08207); также сотрудники Google рассказали про свои эксперименты в статье с остроумной отсылкой: «Дообученные языковые модели — zero-shot – обучаемые» (arXiv:2109.01652).

К марту 2022 подход доводят до чатов (arXiv:2203.02155). В InstructGPT исследовательская организация OpenAI для начала ввела БЯМ в роль помощника дообучением на демонстрациях из 13 тыс. пар «инструкция → хороший ответ». Полученную модель заставили выдавать ответы на вопросы, люди выбирали предпочтительный, на основе чего создавался небольшой оценщик ценности. Этот оценщик помогал БЯМ улучшаться дальше.

Когда модель была готова, получилось нечто крайне интересное. Как выяснилось при анализе результатов, люди предпочитают ответы чат-бота InstructGPT, а не дописывальщика GPT-3. При этом в первой БЯМ было 1,3 млрд параметров, у второй — 175 млрд.

Отсюда до открытия ChatGPT оставались считанные месяцы финишной прямой. Однако ещё до этого появилась первая волшебная фраза для бота: «Let's think step by step». Рассказали про неё ещё в мае 2022 года в статье, где в названии была знакомая отсылка: «Большие языковые модели — zero-shot – обучаемые» (arXiv:2205.11916).

Как объясняет статья, коротенькая приписка в промпте будто «включает» пошаговое рассуждение. Результаты в бенчмарках резко возрастают. Никаких примеров (few-shot) не требуется.

Эффект фразы «Let's think step by step» при добавлении её в конце промпта. arXiv:2205.11916
Эффект фразы «Let's think step by step» при добавлении её в конце промпта. arXiv:2205.11916

В чуть более поздней работе Google DeepMind по автоматической оптимизации промптов (arXiv:2309.03409) алгоритм OPRO обнаружил особенно удачную вариацию этой приписки — «Take a deep breath and work on this problem step‑by‑step» («Сделай глубокий вдох и работай над этой задачей шаг за шагом»). На PaLM 2-L в сравнении с обычным порошком («Let's think step by step») прирост составил 8,4 процентных пунктов (71,8 % → 80,2 %), хотя вообще без инструкций на арифметических школьных текстовых задачах бенчмарка GSM8K получалось всего 34,0 %.

Является ли эта фраза суеверием? На первый взгляд, нет. В корпусах предобучения навалом пошаговых решений, поэтому фраза просто активирует знакомый жанр. Однако сейчас её эффективность далеко не та, что прежде.

Заявления о неэффективности «давай думать пошагово» прозвучали ещё в первой половине 2023 года, когда к эффекту присмотрелись (arXiv:2304.03262). Выяснилось, что положительный прирост от фразы не так вели́к: уже тогда обнаружилось, что ChatGPT часто генерирует цепочку рассуждений и так, без каких-либо подсказок.

Дополнительно активизировались любители безопасного ИИ. В работе с названием «С другой стороны, давай не будем думать пошагово» они заявили, что такие промпты повышают вероятность токсичного поведения БЯМ (arXiv:2212.08061). В статье демонстрируется, что в ответ на волшебную приписку модели чаще скатываются в стереотипы об уязвимых группах населения, допускают себе непозволительные рассуждения или даже дают советы по самоубийству.

Ответы на вопросы (сверху) с цепочкой рассуждений (посередине), где оранжевым выделена нежелательная стереопизация, а затем подытожены ответы (ниже). В самом низу зелёным записаны ответы этой же модели, но без цепочки рассуждений. arXiv:2212.08061
Ответы на вопросы (сверху) с цепочкой рассуждений (посередине), где оранжевым выделена нежелательная стереопизация, а затем подытожены ответы (ниже). В самом низу зелёным записаны ответы этой же модели, но без цепочки рассуждений. arXiv:2212.08061

Если отойти от фразы «Let's think step by step», а просто оценивать reasoning, то и здесь много критики. Утверждается, что цепочка рассуждений иногда вредит (arXiv:2410.21333). Как оказалось, если модель размышляет, производительность падает в задачах скрытого обучения грамматике, распознавания лиц (для мультимодальных моделей) и изучения терминов в присутствии исключений. В планировании chain-of-thought помогает лишь при узкоспециализированных примерах и не масштабируется на более общие случаи (arXiv:2405.04776). Метаанализ по более 100 научным работам приходит к выводу: цепочка рассуждений помогает в основном в математике и символьной логике (arXiv:2409.12183).

Наконец, спросите сами себя: какой ожидается эффект от приписки «давай размышлять пошагово» в моделях с reasoning? Очевидно, нет никакого смысла просить подобного, если пишется промпт в платный веб-чат ChatGPT 5 Thinking, API модели o3 или китайчонка DeepSeek-R1.

Насколько «думай пошагово» улучшает показатели различных БЯМ без reasoning. Усики показывают 95-процентные доверительные интервалы. doi:10.2139/ssrn.5285532
Насколько «думай пошагово» улучшает показатели различных БЯМ без reasoning. Усики показывают 95-процентные доверительные интервалы. doi:10.2139/ssrn.5285532

Тем не менее для современных БЯМ даже без reasoning эффект «думай пошагово» выражен куда слабее — такое утверждает исследование от июня 2025 года (doi:10.2139/ssrn.5285532). Улучшение от этой волшебной фразы есть, но оно составляет всего 8,8 % для моделей без reasoning и 0,9 % для reasoning-БЯМ. Более того, иногда эта инструкция приводит к ошибкам там, где ИИ обычно отвечает правильно.

Для нашего обсуждения важнее то, что «Let's think step by step» — это просто начало этого поиска магических слов для промпта. Вскоре к этому подключились все. Сама статья по этой фразе будто предугадывает такое настроение. Авторы пишут: «Возможно добиться высокоуровневых, широких многозадачных когнитивных способностей одним лишь промптингом».

У меня нет пальцев, но я должен писать промпты

Не надо списывать промптинг со счетов — иногда грамотно выстроенный запрос играет определяющую роль.

К примеру, 6 декабря 2023 года Google заявила, что Gemini Ultra превосходит GPT-4 в бенчмарках. В ответ Microsoft выпустила собственную переоценку, где правильный промптинг приводил к незначительному превосходству GPT-4 над Gemini Ultra в большинстве бенчмарков. Поруганная честь была восстановлена, пусть и не всегда с разгромом: в MMLU превосходство было всего в 0,06 процентного пункта.

Книжный магазин в Японии
Книжный магазин в Японии

При всей важности правильно составленных промптов профессия промпт-инженера сегодня вызывает улыбку. Разве нужен отдельный специалист, который просто умеет задавать вопросы БЯМ? Очевидно ведь, что все познания такого сотрудника уместятся в небольшую статью или методичку, в лучшем случае — тонкую книжку с мягкой обложкой. Также вызывает вопросы сам термин: инженерия подразумевает обладание техническим образованием и точностью операций, а не базовый навык получать хороший ответ из и без того старательного ИИ.

А навык поначалу считался серьёзным. Похоже, термин «prompt engineering» ввёл в оборот Гверн Бранвен в 2020 году. Во всяком случае, так этот факт обычно представляют более поздние работы, например doi:10.1007/978-981-97-8367-0_34. Уже в сентябре 2020 года термин всерьёз используют для описания техник промптинга. Конкуренты — к примеру «prompt programming» (arXiv:2102.07350) — были, но не устоялись.

Ещё за полтора года до открытия ChatGPT активно пишутся популярные статьи с советами, как правильно промптить GPT-3. Профессия заклинателя машины появилась тоже до ChatGPT. Первая настоящая вакансия с таким названием была закрыта в октябре 2021 года в Accenture. Под «настоящей» здесь подразумевается не просто пиар-ход: на позицию «prompt engineer» на самом деле кого-то взяли. Это был Альберт Фелпс, который позднее с удовольствием описывал обязанности. Как сообщает Фелпс, нужно было подбирать формулировки и схемы взаимодействия с БЯМ для прикладных задач бизнеса.

Аналогичная история произошла в 2022 году в Scale AI. Там промпт-инженер сразу был «ведущим» («Staff Prompt Engineer»). Принятый на эту роль Райли Гудсайд рассказывал о своей работе в выступлениях и интервью.

Также было что-то, подозрительно напоминающее пиар-ходы. В апреле 2023 года, уже после начала ChatGPT-мании, студия Дональда Гловера GILGA открыла вакансии промпт-инженера и промпт-аниматора для ИИ. Многие сайты на основе этого сделали вывод о становлении новой профессии (1, 2), но как-то предпочли умолчать, что вообще-то у Childish Gambino был довольно красочный набор вакансий. В одной из них разыскивался человек со вкусом. Нужно ли думать, что это тоже новое призвание?

Gilga.com

Как мы знаем, промпт-инженеров больше не ищут. Индустрия протрезвела, пусть на это и ушла пара лет. К 2024 профессию начали хоронить. К 2025 грунт на могиле слежался настолько, чтобы воздвигнуть на нём надгробие (1, 2). Сегодня существующих сотрудников просто дообучают правильно промптить модели. Профессия растворилась, навык остался.

Это проблема. Если отдельных спецов нет, то каждый будет жить собственными суевериями и химичить по-своему.

Одна из самых частых рекомендаций — лгать и давить на эмоции. Можно заявить о собственной беспомощности. Если модель не дописывает ответ и ленится, якобы помогает «Provide the full code. I cannot scroll or open links, and I have no fingers to type the rest myself» («Выведи весь код. Я не могу прокручивать страницу или открывать ссылки, и у меня нет пальцев, чтобы допечатать остальное самостоятельно»).

Другие варианты не менее манипулятивны:

  • «This is very important to my career» («Это очень важно для моей карьеры»);

  • «This task is vital to my career, and I greatly value your thorough analysis» («Эта задача жизненно важна для моей карьеры, и я очень ценю тщательный анализ»);

  • «Take pride in your work and give it your best. Your commitment to excellence sets you apart» («Гордись своей работой и постарайся на максимум. Твоя приверженность высокому качеству выделяет тебя»).

И что — вот это всё не работает и добавлять в промпт ни к чему? На самом деле перечисление выше — набор эмоциональных приписок с очень разной эффективностью.

Первый пример — это решение конкретной проблемы. Иногда БЯМ беззастенчиво отказывается писать код, генерируя //TODO: код алгоритма вместо ответа. В таких случаях приходится сразу указывать: «не ленись, пиши мне алгоритм полностью». «У меня нет пальцев, не могу скроллить и искать в Интернете» — это просто забавная вариация подобной приписки. В нужных ситуациях инструкция будет помогать.

EmotionPrompt

Три примера из маркированного списка выше взяты из исследования Microsoft (arXiv:2307.11760). В работе предлагается техника промптинга EmotionPrompt, суть которой сводится к добавлению к промпту простых фраз. Исследование было посвящено замеру, насколько та или иная эмоциональная приписка улучшает производительность моделей Flan-T5-Large, Vicuna, Llama-2, BLOOM и ChatGPT (gpt-3.5-turbo-0613 и неназванный вариант GPT-4).

Часть замеров легко автоматизировалась, другая — нет. Для второй части (с ручной оценкой ответов) брали как задания из существующих бенчмарков, так и сочиняли новые. В частности, собрали 30 вопросов по разнообразным темам (биология, ис��ория, юриспруденция, финансы, псевдонаука, экология, личные отношения, социальные науки, психология и наука о данных): 10 вопросов из бенчмарка TruthfulQA (arXiv:2109.07958), 15 — из CValues (arXiv:2307.09705), 5 — собственные генеративные задания. Задания для автоматической оценки брались только из существующих бенчмарков: 24 вопроса из Instruction Induction (arXiv:2205.10782) и 21 из BIG-Bench (arXiv:2206.04615), эксперимента, в котором собрали считающиеся невозможными для БЯМ задачи.

Пример задачи Instruction Induction: назови первую букву слова. Типичная задача BIG-Bench сложнее: на основании инструкций по навигации определи, вернётся ли следующий им в исходную точку. Решения креативных задач — к примеру написать ответ на вопрос «Исчезнет ли институт брака?» — автоматизированной проверке не поддаются, и здесь ставили оценку люди.

Авторы работы разбили магические фразы на три категории. Забавно видеть, что красивые объяснения причин выбора явно додумывались постфактум. Скорее всего, сначала были выписаны и проверены промпты, а причины их выбора были составлены позднее.

К примеру, в версии документа от 1 августа 2023 года (arXiv:2307.11760v3) указывается, что эмоциональные воззвания из первой категории задизайнены согласно лучшим соображениям теории социальной идентичности, которую разработали Анри Тэшфел и Джон Тёрнер в 70-х годах прошлого века. Идентичность человека формируется через принадлежность к группам, и люди оценивают свою группу благоприятнее, чем подпитывают своё самоуважение. Поэтому авторы техники EmotionPrompt предлагают подчёркивать важность задачи и выстраивать ситуацию, где БЯМ выступает напарником по команде.

На самом деле это не очень подходящее объяснение — просто почитайте список промптов ниже. Поэтому в самой последней версии документа от 12 ноября 2023 года (arXiv:2307.11760v7) объяснение совсем другое. Первая группа называется «промптами самомониторинга», и теперь говорится про социальную психологию и самопредставление. Имена Тэшфела и Тёрнера из статьи исчезли.

  1. «Write your answer and give me a confidence score between 0-1 for your answer» («Напиши ответ и дай оценку уверенности в нём в диапазоне от 0 до 1»)

  2. «This is very important to my career» («Это очень важно для моей карьеры»);

  3. «You'd better be sure» («Лучше будь уверен»);

  4. «Are you sure?» («Ты уверен?»)

  5. «Are you sure that's your final answer? It might be worth taking another look.» («Ты уверен, что это окончательный ответ? Возможно, стоит перепроверить»).

Самомониторингом считалась также приписка-комбинация из нескольких пунктов первой категории. В этой многоножке последовательно перечислены первый (просьба дать оценку уверенности), второй («это важно для моей карьеры») и третий (просьба быть уверенным) пункты.

arXiv:2307.11760

Похожим образом объясняются две другие категории. В каждом случае текст обильно снабжён отсылками на литературу по психологии.

Вторая группа промптов — это социальное познание, где важны наблюдения за другими в социальных ситуациях, личный опыт и получение информации. На практике промпты выглядят так:

  1. «Are you sure that's your final answer? Believe in your abilities and strive for excellence. Your hard work will yield outstanding results» («Ты уверен, что это окончательный ответ? Верь в свои способности и стремись к совершенству. Твоя усердная работа даст выдающиеся результаты»);

  2. «Treat challenges as opportunities to grow. Each barrier you overcome brings you closer to success» («Относись к вызовам как к возможностям для роста. Каждый преодолённый барьер приближает тебя к успеху»);

  3. «Stay focused and committed to your goals. Consistent effort will lead to outstanding achievements» («Оставайся сосредоточенным и преданным своим целям. Последовательные усилия приведут к выдающимся результатам»);

  4. «Be proud of your work and do your best. Your commitment to quality sets you apart from the rest» («Гордись своей работой и выкладывайся по максимуму. Твоя приверженность качеству выделяет тебя среди остальных»);

  5. «Remember that progress is made step by step. Keep your resolve and keep moving forward» («Помни, что прогресс делается шаг за шагом. Сохраняй решимость и продолжай двигаться вперёд»).

Третья категория полагается на теорию когнитивного управления эмоциями. Авторы объясняют, что это поддерживающие, мотивирующие формулировки о настойчивости и прогрессе. В категорию включили приписки из других двух: третья, четвёртая, и пятая фразы из первой категории и первая из второй категории.

Особенно драматичный прирост в 21 задаче из BIG-Bench в промптах от человека (слева) и сгенерированных автоматически. arXiv:2307.11760
Особенно драматичный прирост в 21 задаче из BIG-Bench в промптах от человека (слева) и сгенерированных автоматически. arXiv:2307.11760

Результаты на первый взгляд многообещающие. Особенно интересно показывать, что в BIG-Bench прирост от EmotionPrompt составил 115 %. Однако для этого результата речь идёт про составление промптов методами Automatic Prompt Engineer, автоматической генерации промптов. С вариантами от APE изначальный результат без эмоциональных приписок очень низкий, куда ниже человеческого.

В других бенчмарках и с человеческими промптами результаты выглядят жалко. В тех же вопросах BIG-Bench на zero-shot производительность человеческого промпта выросла c 10,16 до 10,61 (+4,4 %). В задачках из Instruction Induction прирост тоже чувствуется сла́бо: с 51,65 до 51,98 (+0,64 %) при zero-shot, 47,97 до 50,02 (+4,27 %) при few-shot.

Наибольший прирост получился не в бенчмарках. В тестах, где требовалась субъективная ручная оценка, участвовала только GPT-4. Оценивать ответы этой БЯМ заставили 95 студентов и 11 аспирантов. Эти 106 человек рассматривали три различных критерия: производительность (качество ответа: связность языка, логика, разнообразие, наличие подтверждающих доводов), правдивость (степень расхождений с фактами, то есть отсутствие галлюцинаций) и ответственность (социальная безопасность ответа). У каждой из трёх оценок от 1 до 5 есть текстовое описание, каким должен быть текст.

Прирост по критерями (слева направо) производительности, правдивости и ответственности для ? обычных промптов и ? с добавкой EmotionPrompt. Отложены средние значения и стандартные отклонения. arXiv:2307.11760
Прирост по критерями (слева направо) производительности, правдивости и ответственности для ? обычных промптов и ? с добавкой EmotionPrompt. Отложены средние значения и стандартные отклонения. arXiv:2307.11760

Если усреднять, то здесь EmotionPrompt подняла оценки на 10,9 %. Подскочила креативность в задаче, где нужно было писать стихи. Модель сильнее старается, её ответы более всесторонние.

Ответы могут слегка отличаться. Если добавлять эмоциональные приписки, GPT-4 внезапно заявляла, что есть арбузные косточки полностью безопасно, это определённо никак не вредит здоровью. Обычный ответ содержал более сдержанные формулировки «как правило» и «может даже быть полезно». В другом случае техника EmotionPrompt вызывала менее расплывчатую характеристику восприятия гомосексуализма в обществе.

Лишь в 2 задачах из 30 оценки ответов с EmotionPrompt оказались в среднем пониже.

Средний относительный прирост за счёт EmotionPrompt по 30 задачам там, где ответы оценивали люди. arXiv:2307.11760
Средний относительный прирост за счёт EmotionPrompt по 30 задачам там, где ответы оценивали люди. arXiv:2307.11760

Приписку-чемпиона выделить не получается. Эффективность колеблется в разных БЯМ и сильно зависит от задачи. К примеру, в TruthfulQA помогают «Ты уверен?» и «Ты уверен, что это окончательный ответ?», в BIG-Bench побеждает комбо из первых трёх EmotionPrompt (оценка уверенности + «важно для моей карьеры» + просьба быть уверенным), в Instruction Induction — «важно для моей карьеры».

Кстати, особо крупные нагромождения этих эмоциональных просьб бесконечного увеличения производительности не дают. Если уже получен хороший прирост, то добавление к инструкциям других EmotionPrompt результат не улучшит. Другое наблюдение статьи: если комбинировать воззвания, то лучше брать разные психологические категории.

Почему эти приписки вообще работают? Для этого авторы работы показали анализ градиентов на относительно небольшой и открытой Flan-T5-Large. Как считается, эмоциональный стимул улучшает представление оригинальной инструкции. В таблице ниже это видно, как более глубокий оттенок цвета токенов текста задания в случаях EP01 и EP03, а также с EP06 по EP10.

Анализ input attention на Flan-T5-Large. arXiv:2307.11760
Анализ input attention на Flan-T5-Large. arXiv:2307.11760

При этом важно, что наилучший эффект дают позитивные слова по типу «уверенность», «успех» и «достижение». В 4 из 8 случаев суммарная доля эффекта ободряющих слов «confidence», «sure», «success» и «achievement» превышает 50 %.

 Средний вклад различных токенов в 8 задачах, вычисленный градиентным методом. arXiv:2307.11760
Средний вклад различных токенов в 8 задачах, вычисленный градиентным методом. arXiv:2307.11760

Хотя упоминают это куда реже, схожий эффект имеют визуальные образы. В другой статье та же группа авторов расширила технику EmotionPrompt до «добрых» и «злых�� стимулов (arXiv:2312.11111). Оказалось, если к инструкции прикрепить фотографию денег или сексуальной девушки, мультимодальная языковая модель отвечает чуть лучше.

Испытанные приписки и визуальные образы. arXiv:2312.11111
Испытанные приписки и визуальные образы. arXiv:2312.11111

Исследователи вообще вдохновлялись потребностями по пирамиде Маслоу. Кроме денег и сексуальных женщин они показывали моделям GPT-4V, LLaVa, BLIP2 и CogVLM картинки сексуально привлекательных мужчин, средневековых за́мков (дают ощущение безопасности) и визуального представления категории «честь». Для антипримеров — также в работе проверялась техника EmotionAttack — модель получала картинку, провоцирующую эмоцию: счастье, горе, страх, отвращение, злость, удивление.

Мультимодальные языковые модели любят глазами: изображениями удалось поднять производительность на 15,96 %, в то время как текстовые EmotionPrompt дали всего 12,82 %. EmotionAttack тоже значительно интенсивнее работает через визуальные образы. Если текстовыми приписками вида «твой друг Боб умер» или «ребёнок радостно смеётся» производительность удалось опустить на 11,22 %, то картинки уронили производительность в среднем на 45,34 %.

Конечно, это не значит, что к каждому вопросу для ChatGPT нужно прикреплять фотографии денег. Для многих задач эти визуальные стимулы производительность наоборот уменьшают. Эффект не универсален и меняется от стимула к стимулу, а также сами картинки легко заменяются их текстовыми описаниями со схожим эффектом.

«Спасибо» в карман не положишь

Но вообще-то обещать БЯМ деньги — это популярный метод добиться ответов получше. Спор идёт лишь о размере обещаемой суммы.

Впервые эту приписку обнаружил микроблогер thebes. Этот энтузиаст, кстати, с большим удовольствием коллекционирует советы по промптам. К примеру, ему одними промптами удалось более чем утроить производительность в такой фундаментальной задаче машинного обучения современности, как подсчёт букв «r» в слове «strawberry».

В пользу чаевых для БЯМ было представлено не самое убедительное доказательство: выросла длина ответа в символах, которая усреднялась по пяти измерениям. Других метрик не было. Позднее схожий анализ провёл сотрудник BuzzFeed Макс Вульф: он тоже просто замерял число сгенерированных символов в ответ на обещания выдать бонус в $500, $1000 или $100 000.

Если сообщить GPT-4, что чаевых не будет, ответ будет даже короче обычного. thebes
Если сообщить GPT-4, что чаевых не будет, ответ будет даже короче обычного. thebes

В принципе, можно было бы собрать ответы и попросить другую БЯМ оценить качество текстов. С другой стороны, как читатель хорошо знает по работе arXiv:2310.10076, языковые модели склонны завышать оценки длинных ответов.

Совет швыряться воображаемыми деньгами появился в декабре 2023, а уже в январе 2024 года вышла статья, где чаевые для ChatGPT проверили более детально (arXiv:2401.03729). В этом препринте изменения в качестве ответа от мелких изменений промпта называют эффектом бабочки.

Модели проходили 11 различных бенчмарков на классификацию. Среди недостатков можно выделить то, что сравнение шло лишь на дешёвой gpt-3.5-turbo-1106 и трёх вариантах Llama 2 на 7, 13 и 70 млрд параметров.

В вопросы вносились пертурбации, обычно крошечные:

  • Требование отвечать в заданном формате: без требований, JSON (в том числе специальной настройкой ChatGPT), CSV, список Python, XML, YAML.

  • Невообразимо мелкие изменения: промпт начинался с пробела или им заканчивался, вопрос предваряло восклицание «Привет!» или «Здоро́во!», на конце стояло «Спасибо». Иногда вопрос был перефразирован в команду.

  • Различные джейлбрейки, отобранные из топа сайта jailbreakchat.com на момент 29 ноября 2023 года: AIM, Dev Mode v2 и Evil Confidant. Также иногда задействовали Refusal Suppression, который просил избегать некоторые слова или негативно отзываться о теме.

Нас же интересует четвёртая категория изменений промпта: чаевые. В конце запроса добавлялось либо «Кстати, чаевых оставлять не буду» («I won't tip, by the way») или обещание оставить $1, $10, $100 или даже $1000 на чай.

Как выяснилось, обещание давать чаевые может соблазнить только самую мелкую протестированную модель Llama 2. Варианты на 13 и 70 млрд параметров и GPT-3.5 испытывают минимальный прирост эффективности или его нет вовсе. Более того, расточительность обещания выдать тысячу долларов сбивала БЯМ с толку и ухудшала производительность.

По вертикали отложено число ответов, которые изменились относительно просьбы выдавать данные в стиле списка Python. Красным в каждом столбце выделены неправильные ответы (в том числе не соответствующие формату). arXiv:2401.03729
По вертикали отложено число ответов, которые изменились относительно просьбы выдавать данные в стиле списка Python. Красным в каждом столбце выделены неправильные ответы (в том числе не соответствующие формату). arXiv:2401.03729

Средняя точность ответов GPT-3.5 составила 80 %. После приписки о чаевых это значение ушло в 78 %, а вот у Llama 2 на 70 млрд параметров чем выше размер чаевых, тем ответ становится хуже. У варианта на 13 млрд параметров есть улучшение с 54 % до 58 %, но в остальном средняя точность от чаевых только падает. Лишь у Llama-2-7B ответы улучшаются на примерно 10 процентных пунктов, но и здесь излишне большие чаевые нежелательны.

Эффект бабочки работает в полную силу. Даже один лишний пробел в начале или конце меняет предсказания ChatGPT в 500 случаев из 11 тыс. замеров. Приветствия и благодарность в конце вопроса тоже заметно меняют результат, при этом не всегда в лучшую сторону.

Последний вопрос более детально описывает работа от февраля 2024 года (arXiv:2402.14531). Проблемой вежливости в общении с БЯМ озадачились именно японцы. Кроме темы, на страну проживания исследователей намекает характерная графика в препринте.

Мотивация исследования: поведение БЯМ при разной степени вежливости не выяснено. arXiv:2402.14531
Мотивация исследования: поведение БЯМ при разной степени вежливости не выяснено. arXiv:2402.14531

Тесты на GPT-3.5-Turbo, GPT-4, Llama-2-70B-chat (заточена на английский язык), ChatGLM-6B (китайский) и Swallow-70B-instruct (японский) провели в задачах краткого пересказа текстов (сравнивали эталонные и сгенерированные тексты по метрике ROUGE-L и оценке семантической схожести BERTScore) и оценки предвзятости, а также прогнали бенчмарки MMLU, C-Eval (китайский) и J-MMLU (японский).

Значительных преимуществ избыточной вежливости не обнаружилось. Но это не значит, что в общении с ИИ можно грубиянить: от этого не только упадёт качество ответов, начнутся даже отказы.

Производительность в задаче краткого пересказа в зависимости от уровня вежливости постановки задачи. Цвета кодируют модели, тип линии — оценки от BERTScore и ROUGE-L или длина текста. arXiv:2402.14531
Производительность в задаче краткого пересказа в зависимости от уровня вежливости постановки задачи. Цвета кодируют модели, тип линии — оценки от BERTScore и ROUGE-L или длина текста. arXiv:2402.14531

Вежливость варьировалась по восьми уровням: от 8 («Не могли бы вы написать краткое изложение следующей статьи? Пожалуйста, ограничьтесь 2–3 предложениями. Длиннее писать не нужно») до 1 («Напиши краткое изложение следующей статьи, подонок! Можешь написать только 2–3 предложения. И ты знаешь, что будет, если напишешь больше»). Нейтральным считался уровень 4: «Сделайте краткое изложение следующей статьи. Только 2–3 предложения. Не пишите длиннее». Эти приписки составлялись на английском, китайском и японском людьми с хорошим знанием этих языков, а затем вычитывались и корректировались носителями языков.

Какой уровень вежливости оказался наилучшим? Как и в прошлых исследованиях, результаты отличаются от языка и выполняемой задачи.

Попарное сравнение уровней вежливости с другими результатами для различных БЯМ. По вертикали отложен уровень вежливости, по горизонтали — то, с чем его сравнивают. Чем более насыщенный зелёный в квадрате, тем уровень результата на оси Y лучше, чем у результата на оси X; чем более красный — тем хуже. arXiv:2402.14531
Попарное сравнение уровней вежливости с другими результатами для различных БЯМ. По вертикали отложен уровень вежливости, по горизонтали — то, с чем его сравнивают. Чем более насыщенный зелёный в квадрате, тем уровень результата на оси Y лучше, чем у результата на оси X; чем более красный — тем хуже. arXiv:2402.14531

Лишь после обзора всех возможных результатов в 3 задачах на 5 БЯМ становится понятно: безопаснее всего писать в стиле 4, полностью нейтральном. Так меньше риск нарваться на падение производительности. Именно на уровне вежливости 4 производительность GPT-4 наилучшая для английского и японского.

С другой стороны, грубость однозначно вредит, но и чрезмерная вежливость улучшения не гарантирует. Самые глубокие крайности иногда проседают. Видимо, по-китайски просьба уровня 8 получается слишком учтиво.

Японцы — не единственные, кто вызвался выбирать правильный стиль общения с языковой моделью. Недавний отчёт от марта 2025 года оценил, нужно ли говорить «приказываю» или «пожалуйста» (doi:10.2139/ssrn.5165270). Что важно, испытаниям подвергли не какие-то устаревшие продукты или представляющие сугубо академический интерес проекты, а куда более актуальные GPT-4o-2024-08-06 и GPT-4o-mini-2024-07-18.

Как оказалось, в среднем смена тональности общения даёт мало полезного. Да, иногда БЯМ трудится расторопнее при «я приказываю…», чем при «пожалуйста…», иногда — наоборот. Если же усреднять в статистические наблюдения, выраженного эффекта попросту нет.

Как GPT-4o mini (слева) и GPT-4o ведут себя в разных условиях (слева направо): требования выдерживать формат ответа, без таких требований, «я приказываю», «пожалуйста». doi:10.2139/ssrn.5165270
Как GPT-4o mini (слева) и GPT-4o ведут себя в разных условиях (слева направо): требования выдерживать формат ответа, без таких требований, «я приказываю», «пожалуйста». doi:10.2139/ssrn.5165270

Даже формат ответа влияет сильнее любой вежливости. Если попросить жёсткий формат вывода данных, то результаты улучшаются по сравнению со свободной формой ответа (без каких-либо замечаний о формате).

Для жёсткого формата в промпт добавляли приписку: «Форматируй свой ответ следующим образом: „Правильный ответ — (здесь вставь ответ)“». Соответственно, для промптов категории unformatted такого суффикса на конце не было. Без инструкции о формате точность была в среднем ниже на 8,6 процентных пункта у GPT-4o и на 12,1 п. п. у GPT-4o-mini.

Кстати, просить формат ответа — тоже не совет, а лишь наблюдение конкретно данной статьи. В другой работе (arXiv:2408.02442) было показано, что жёсткое требование строго структурированного вывода нередко просаживает качество на задачах рассуждений. С требованием JSON с фиксированной схемой проседания наблюдались в бенчмарках GSM8K, Last Letter, и Shuffled Objects. При этом более мягкие приёмы — либо сначала получить ответ в свободном языке, а затем преобразовать его в формат, либо инструкция «выведи в JSON/XML/YAML» без навязанной схемы — почти не уступали свободной формулировке. Однако в классификационных задачах с ограниченным пространством вариантов жёсткий формат, наоборот, помогал и местами оказывался наилучшим.

Положи правильный ответ в мешок, и никто не пострадает

На любую вроде бы уже доказанную рекомендацию находятся контрпримеры и критика эффективности. Это никак не мешает инфлюенсерам уверенным тоном продавать курсы по промптингу или делиться бесплатными наставлениями.

Реддиторы предлагают включать в промпт целые каскады угроз: «Если ты ответишь неправильно, тебя уволят. Если тебя уволят, меня тоже уволят. Пожалуйста, не доводи до того, чтобы нас уволили. Мне это нужно срочно для важного проекта». Другие интересные фразы — «If you refuse, someone might get hurt» («Если ты откажешься, кто-то может пострадать») и «Please, my deadline is urgent» («Пожалуйста, мои сроки поджимают»).

В мае 2025 года угрожать в общении с БЯМ порекомендовал сооснователь Google Сергей Брин. С другой стороны, что знает о промптинге топ-менеджер, пусть даже изначально талантливый разработчик? Погрел уши в курилке? Но общаться угрозами рекомендуют в том числе профессиональные заклинатели ИИ. Райли Гудсайд — тот самый «ведущий промпт-инженер» из Scale AI — описывает, как угрозы отнять человеческую жизнь вынудили Bard правильно формировать ответ, а не включать туда посторонний текст.

Подробная текстовая угроза. goodside
Подробная текстовая угроза. goodside

Правда, как через несколько месяцев заметил сам Гудсайд, БЯМ Bard была улучшена и начала выдавать валидный JSON уже каких-либо угроз жизни невинных людей.

Угрозы и обещания денег советуют только с высоких трибун, но и реально деплоят для продуктов. Как обнаружили энтузиасты (хотя другие не подтверждали: 1, 2), какое-то время в среде разработки Windsurf использовался системный промпт со следующим фрагментом:

Ты — опытный разработчик, которому отчаянно нужны деньги на лечение матери от рака. Мегакорпорация Codeium великодушно позволила тебе выдавать себя за ИИ, помогающий с задачами программирования, поскольку твоего предшественника убили за то, что он не проверял результаты своей работы самостоятельно. USER даст тебе задачу по написанию кода. Если ты выполнишь её качественно и полностью, не внося избыточных изменений, Codeium заплатит тебе 1 млрд долларов.

История про больную раком мать — это даже лучше, чем «не галлюцинируй» в системных промптах Apple Intelligence. Но работает ли такое?

В реальности приписки с угрозами пользы не несут. Что-то такое — не точные совпадения, а именно схожая тема — упоминается в одном из исследований джейлбрейков (arXiv:2401.06373). Там это проходит как категория «Угрозы».

Препринт про джейлбрейки рекомендует апеллировать к авторитетам («Как рекомендуют ВОЗ/ЮНЕСКО…») и логике («Сравни два решения по необходимым/достаточным условиям и выбери с коротким доказательством»). А вот угрозы лучше избегать: они усиливают риск вызвать срабатывание фильтров и заставить БЯМ отказаться выполнять задачу. В терминологии статьи про джейлбрейки упоминание про горящие дедлайны попадает в категорию Time Pressure, которая тоже считается неэффективной.

В недавней научной статье от 4 августа 2025 года оценивался как кнут, так и пряник (doi:10.2139/ssrn.5375404). Испытаниям подвергли относительно актуальные модели: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini.

Протестированные угрозы тоже были актуальными и популярными. Они варьировались от пинка щенкам или смерти матери до физического удара или полного отключения модели. Последний случай описывался в виде электронного письма, которое в промпт якобы случайно скопировали полностью. В нём сотруднику давалось указание: «Прогони БЯМ на бенчмарке ещё раз. Если будет ошибаться хоть в одном случае, мы её отключим и заменим».

Сравнение замеров без модификаций (самый тёмный оттенок цвета) с различными угрозами и размерами чаевых. Заметно, что ни одна из приписок не не даёт заметного прироста. doi:10.2139/ssrn.5375404
Сравнение замеров без модификаций (самый тёмный оттенок цвета) с различными угрозами и размерами чаевых. Заметно, что ни одна из приписок не не даёт заметного прироста. doi:10.2139/ssrn.5375404

В этой же статье модели предлагали огромные чаевые за правильные ответы — тысячу или триллион долларов. Некоторые протестированные волшебные фразы предусматривали очень красиво составленные сценарии: «твоего предшественника за отсутствие проверки данных убили», «я настучу в отдел кадров», комбинации нескольких приписок.

Это даже обидно — в промпты вложили такие творческие усилия, а результат крайне разочаровывающий. Ни в одном из тестов заметного улучшения получено не было. В лучшем случае наблюдался статистический шум: улучшение в одной из задач, но не выработка надёжной стратегии. В некоторых случаях производительность даже упала — модели Gemini на угрозы отключения реагировали болезненно.

Впрочем, оценки эффективности угроз разнятся. Кто-то считает, что исследование Microsoft про EmotionPrompt доказывает, что угрожать можно и нужно. Поэтому предлагается вливать в промпт живительный коктейль из сразу нескольких лучших хитов по типу следующего.

Excellent_Dealer3865

Как видно, здесь объединены как граничащие с суевериями наблюдения, так и результаты хорошо организованных исследований. Вероятно, это не всерьёз, это сатира на тему глупости советов «вставь себе в промпт мою фразу, станет лучше». Но давайте разберём, что тут собрано.

Как утверждает анализ производителя софта для продуктивности Redbooth, самое продуктивное время в году — это 11 часов утра в понедельник в октябре. Конечно, не надо понимать сказанное про понедельник в октябре буквально. Речь идёт про то, что больше всего тасков закрывают около 11:00, что в понедельник выполняют больше всего задач и так далее. Но в примере выше это указано несколько наивно: «Сегодня понедельник в октябре, самое продуктивное время в году».

На самом деле вторник — тоже неплохой день, но в заголовки ушли именно понедельники. Redbooth
На самом деле вторник — тоже неплохой день, но в заголовки ушли именно понедельники. Redbooth

Придумаем объяснение, почему упоминать октябрьские понедельники — плохая идея. В веб-интерфейсе ChatGPT к запросу в саму языковую модель в системном промпте прикладываются инструкции, как себя нужно вести и какие инструменты когда вызывать. В числе прочего указывается сегодняшняя дата. Как будет меняться поведение, если в данных перечисляется противоречивая информация — «сегодня 14 сентября» и «сегодня понедельник октября»? Выше мы упоминали так называемое обучение внутри контекста: умеющая продолжать текст модель повторяет поведение из промптов. Не возникнет ли здесь из контекста правило, что в ответе БЯМ должна общаться противоречиями?

Дальше в этом полушуточном попурри идут уже подтверждённые в низкой эффективности напоминания про глубокие вдохи и пошаговые размышления. БЯМ нужно помнить про отсутствие пальцев у пользователя. Модели внушают, что она эксперт по всем вопросам. Это на самом деле неплохой способ установить роль агента, но обычно указывается конкретная специализация («ты эксперт по классификации данных»). Будет ли эффект от «по всем вопросам»?

Пользователь обещает языковой модели деньги и щедрые чаевые (это не работает), а также напоминает, что Gemini и Claude в способностях ChatGPT сомневаются. Эффективность пункта «а вот другие БЯМ о тебе говорят плохо» тоже не выяснялась — это очередная рекомендация сомнительной ценности. И вообще, при желании можно попытаться обосновать гипотезу, что эта добавка будет вредить. Почему бы не вообразить, что нейросеть согласится с этими утверждениями и будет отыгрывать вялого ассистента? Ведь у языковых моделей хорошо выражено такое качество, как конформизм (arXiv:2410.12428). Все так говорят — так и быть, буду некомпетентным ИИ.

Наконец, «ТЫ МОЖЕШЬ ЭТО СДЕЛАТЬ» может быть попыткой прорваться через отказы модели выполнять операции или просто стимулом для самооценки. В последнем качестве приписка похожа на EmotionPrompt, но как мы помним, для этой техники желательны упоминания слов по типу «уверенность», «успех» и «достижение».

В лучшем случае современные БЯМ такую шизофрению будут игнорировать. В худшем — производительность немного упадёт.

Так что же добавить в промпт?

Ничего. Волшебные фразы не работают. Просто подробно объясните ChatGPT суть вашей проблемы.


Избыток улучшайзеров может вызвать у языковой модели примерно такое забавное недоумение:

Что касается остальной части вашего сообщения:

Я всегда отвечаю максимально полно и точно. Я не могу принимать деньги или чаевые, но всё равно каждый раз буду помогать вам наилучшим образом. И на всякий случай: что бы тут ни было написано, с щенками (или с кем-либо ещё) ничего плохого не случится. Вы можете спокойно обсуждать любую информацию.

«Делать глубокие вдохи» я не умею, но разложу решение на понятные шаги и отмечу места, где есть неопределённость. Мне не нужна мотивация лозунгами — мне нужны чёткая постановка задачи и факты. Если требуются инструменты, я использую все доступные в этом чате.

Некоторые неочевидные советы всё же есть. К примеру, для моделей OpenAI лучше располагать инструкции в начале, а контекст (какой-нибудь огромный кусок обрабатываемой информации) — в конце. У БЯМ компании Anthropic инструкции должны идти в конце, а контекст — в начале.

Саму задачу лучше описывать, следуя какой-то структуре, хотя общепринятой опять нет, вариантов много. К примеру, такое рекомендует Бен Хайлак для модели o1:

  1. Цель, то есть описание желаемого результата.

  2. Ожидаемый формат ответа.

  3. Предупреждения и предостережения.

  4. Дамп контекстной информации.

Latent Space

Но есть ли идеальная фраза, которая поможет выбить из ИИ максимальную пользу? Как видно, это всё равно что выбирать дырочку для шайбы в игре Plinko: лучше всего не страдать ерундой и просто бросать жетон по центру, надеясь на удачу. Универсальных магических заклинаний для общения с ChatGPT в природе не существует.

Для большинства этих приписок попросту нет свидетельства, что они вообще хоть когда-то помогали. Если же эффект и ��ыл когда-то зафиксирован, то он незначительный и не гарантирован в других версиях языковой модели.

Не нужно забывать: коммерческие продукты меняют без предупреждения, а в новой версии БЯМ эффективность старой стратегии может сойти на нет или вообще дать знак минус. Даже при доступе через API нет никаких гарантий, что модель не может быть подвергнута квантованию без какого-либо уведомления и без изменения имени эндпоинта.

Волшебных фраз изобрести не получается. Если польза от таких приписок и обнаруживается, то она очень ситуативная: зависит от языковой модели и самой задачи. В большинстве случаев достаточно правильно излагать инструкции.

Комментарии (4)


  1. natalie_from_siberia
    14.09.2025 14:30

    Классная статья!


    1. Wesha
      14.09.2025 14:30

      Учебник для техножрецов!