Мы строим систему автоматического рерайта новостей для региональных СМИ. Три месяца назад я писала про архитектуру стилевых профилей. Потом про то, как мы перестали обманывать себя и собрали мультиагентный пайплайн. Сейчас расскажу, что стало понятно после более глубокого разбора. И почему часть проблем мы, похоже, не решим вообще.

Коротко про аспектный подход к рерайту, чтобы был контекст: вместо одного большого промпта «пиши как Фонтанка» мы разбиваем стиль на компоненты – структура, тон, лексика, заголовки и еще 8 аспектов. Каждый анализирует образцы текстов конкретного СМИ и выдаёт описание. Потом всё это собирается в стилевой профиль, который подаётся в промпт при генерации. Здесь важно одно: аспекты описывают стиль правилами. И вот тут начинается проблема.

Тест, который показал границу

Обучили систему на стиле Фонтанки. Взяли три текста об одном рандомном событии: задержание 16-летнего подростка в Уфе, подготовка теракта. Прогнали через рерайт-завод и получили фак ю.

Исходник из СК России:

В Уфе задержали подростка, который вербовал старшеклассников и планировал теракт в православном храме. ФСБ задержала 16-летнего парня из Башкортостана...

Наш рерайт в стиле Фонтанки:

В Уфе задержали 16-летнего подростка, планировавшего теракт в православном храме. ФСБ задержали 16-летнего парня из Башкортостана. Как сообщает СК, подросток вербовал старшеклассников...

Реальная Фонтанка:

В Уфе задержали школьника, его подозревают в подготовке теракта в храме по заданию кураторов. Мальчик, по данным правоохранителей, был завербован.

Наш рерайт грамотный, структурно правильный, фактически корректный. Читается как новость. Но вообще не читается, как Фонтанка.

Одно слово объясняет почему: мальчик.

Почему «мальчик» – это не стилистика

В исходнике написано «подросток». Официальный, нейтральный, правильный термин. Фонтанка написала «мальчик». Это не ошибка и не разговорность. Слово «мальчик» рядом с «был завербован» создаёт столкновение – детское против казённого. Читатель в одном предложении держит два образа: ребёнок и террорист. Фонтанка не говорит «как это страшно» – она показывает через выбор слова.

Второй пример из того же текста: «по версии следствия». Это не просто атрибуция источника. Это сигнал: редакция пересказывает, а не утверждает. Дистанция встроена в конструкцию, а не вынесена отдельным предложением.

Ни «мальчик» вместо «подростка», ни «по версии следствия» как сигнал дистанции – ничего этого нет в наших 12 аспектах стилевого профиля.

Что аспектный подход ловит, а что нет

Наш аспект, отвечающий за тон, про Фонтанку выдаёт: «нейтрально-информационный тон с элементами разговорности». Формально всё верно, а по сути всё мимо.

Аспекты хорошо описывают структуру: длину предложений, частоту пассивного залога, как строится лид, как работает атрибуция. Аспекты не описывают лексические решения: какое слово из нескольких равнозначных выбирает журналист, где появляется авторская дистанция и как она выражена, как создаётся эффект через столкновение регистров.

Правило «используй активный залог» – структурная инструкция. «Мальчик» вместо «подростка» – это не нарушение правила пассивного залога. Это выбор, который не формализуется никак.

Пердел, в который мы уперлись

Голос текста не передаётся правилами. Они работают для ограничений: не используй Санкт-Петербург, а просто Петербург, атрибуция один раз на текст. Правила работают для структуры: лид с факта, не с контекста, в заге результат истории и тд. Но они вообще не могут передать, как конкретное слово в конкретном месте создаёт интонацию.

Это, я считаю, поправьте, если не так, не наш баг, а ограничение самого подхода.

Можно попытаться формализовать: «выбирай слово с меньшей официальностью, если рядом стоит слово с высокой официальностью». Но это правило не работает универсально – иногда Фонтанка пишет очень сухо, и «мальчик» там будет неуместен. Контекст решает. А контекст – это то, что нельзя упаковать в инструкцию.

Что мы с этим делаем

Ну вообще полностью нам это по ходу не победить.
Увеличиваем количество примеров с 3 до 10-15 и подбираем их по типу темы – криминал к криминалу, ЧП к ЧП. Модель имитирует конкретный образец лучше, чем следует абстрактному правилу. «Мальчик» в примере передаётся через демонстрацию, а не через описание. Это работает, но не гарантированно.

Для MVP принимаем, что система воспроизводит структуру и формальные характеристики стиля точно, а голос – приблизительно. Это правильнее, чем обещать неотличимость от редакции.

Параллельно починили три конкретных бага, которые к голосу не относятся: проверка соблюдения явных запретов из стилевого-гида (раньше модель их игнорировала), контроль полноты факт-экстракции (агент теперь сверяет с исходником не просто факты, а и все ли факты присутствуют в рерайте), подбор примеров по тематическому тегу вместо случайного. Эти три вещи улучшают качество измеримо. А голос – ни фига.

Что это значит для продукта

Большинство региональных редакций не имеют фонтанковского уровня стилевой идентичности – у них нет «мальчика вместо подростка» как осознанного редакторского решения. Их стиль описывается структурными правилами достаточно точно.
Фонтанка – сложные кошки, на которых мы выбрали тренироваться. Возможно, самые сложные из реальных изданий, которые мы тестили. Хорошо, что начали с неё – стало понятно, где потолок.

Итог

Месяц назад я писала про то, как мы спроектировали обучение стилю. Сейчас могу сказать точнее: мы хорошо научили систему писать похоже. Научить писать так же – другая задача, и у неё другой ответ.

«Мальчик» вместо «подростка» – это редакторское чутьё, которое нарабатывается годами в конкретной редакции. Модель может его имитировать, если видит достаточно примеров. Но это имитация, а не понимание. Иногда этого хватает, иногда нет, посмотрим.

Статья написана с помощью AI-системы «Рерайт-Завод»

Комментарии (25)


  1. PereslavlFoto
    19.03.2026 22:55

    Большинство региональных редакций не имеют

    Вы придёте к тому, что в региональной газете будет только 2 сотрудника, не так ли? Бухгалтер и верстальщик? Тексты будет поставлять автоматический обработчик, собирая общественную часть по локальным соцсетям, а официальную часть — по сайту региональной администрации?

    У нас давно мечтают о том, чтобы программа научилась писать и иллюстрировать городскую газету, потому что платить за это трём людям (бухгалтер, верстальщик и автор) получается слишком дорого.

    И, конечно, совсем здорово будет, если ваша программа позволит переиначивать чужие тексты и изображения так, чтобы суд не заставил заказчика платить какие-либо авторские отчисления. Денег едва хватает на личного фотографа для губернатора и мэра!


    1. dimka11
      19.03.2026 22:55

      Верстальщика тоже автоматизировать можно


      1. vaganovelena Автор
        19.03.2026 22:55

        Можно, но мы не об этом. Вёрстка автоматизируется давно и без AI. Мы занимаемся текстом, потому что там автоматизация сложнее и боль острее. 15 рерайтов в день руками - это 6 часов одного человека. Вёрстка при современных возможностях столько не съедает.


        1. PereslavlFoto
          19.03.2026 22:55

          К сожалению, автоматизировать вёрстку в верстальной программе до сих пор не удаётся, потому что человек должен нажимать там кнопки и двигать мышкой.

          15 рерайтов в день может сделать любой человек за 15—20 тысяч рублей в месяц, ведь всё, что требуется от такого рерайтера — это переставить местами чужие слова, чтобы они выглядели как свои.


          1. vaganovelena Автор
            19.03.2026 22:55

            Потому что human in the loop, у нас то же самое. Журналист читает рерайт, правит, публикует. Верстальщик двигает мышкой, но уже не тратит час на то, что шаблон делает за секунду.

            Рерайтер за 15-20К? найдите его, прошу. Редакции именно это и пытаются сделать по полгода, потом берут студента, он уходит через два мес, и круг замкнулся. Кадровый голод в региональных СМИ -это первое что слышишь на любом интервью с главредом, а я их много провела


            1. PereslavlFoto
              19.03.2026 22:55

              Ну так пусть ищут в районных городах, в деревнях и сёлах.

              А региональные СМИ, это богатые жители областных миллионников, которые привыкли черпать из областного бюджета. Именно эти люди уже привели к банкротству почти всю областную печать, потому что очень хотели получать больше денег, чем страна может им платить.


    1. Chillingwilli
      19.03.2026 22:55

      Останется один сотрудник: системный администратор. Кто-то же должен перезагружать роутер, когда у ИИ-редакции отвалится коннект к серверу генерации)


      1. PereslavlFoto
        19.03.2026 22:55

        Без бухгалтера нельзя принимать деньги за объявления!


        1. vaganovelena Автор
          19.03.2026 22:55

          1С уже лет двадцать автоматизирует большую часть того, что бухгалтер делал руками.Так работает автоматизация вообще: убирает не профессию, а рутину внутри неё.

          И не всем давно уже нужен бух, как отдельная штатная единица.


          1. PereslavlFoto
            19.03.2026 22:55

            Именно поэтому в каждом более-менее серьёзном малом предприятии размером 100 человек есть четыре-пять бухгалтеров, да?


    1. vaganovelena Автор
      19.03.2026 22:55

      Сценарий с двумя сотрудниками уже реализуется и без нашей системы. Редакции сокращаются не из-за ИИ, а потому что денег нет. Мы не ускоряем этот процесс, а пытаемся сделать так, чтобы оставшиеся три человека не работали по 60 часов в неделю на рерайте пресс-релизов.

      Мечтательные запросы автоматизировать всё ради экономии мы получаем. Но это не к нам. Наш продукт заточен, чтобы журналист контролировал результат, а не исчезал из процесса.

      Про авторские права - рерайт как жанр существует давно и имеет устоявшуюся правовую практику. Пересказ своими словами с атрибуцией источника - это основа работы информационных агентств. Если кто-то хочет использовать систему для обхода авторских прав - это их юридический риск.


      1. PereslavlFoto
        19.03.2026 22:55

        Они всю жизнь занимались рерайтом пресс-релизов. Теперь что-то изменилось?


        1. vaganovelena Автор
          19.03.2026 22:55

          Изменилась цена. Раньше рерайт стоил 20-30 минут журналиста. Теперь 8 рублей и 5 минут на проверку. Когда цена операции падает на порядок, объём обычно растёт, а люди переходят на то, чем должны заниматься по роду службы - в данном случае журналистикой. А если он хочет дальше переставлять слова, то мне такой как собственнику СМИ такой сотрудник не нужен


          1. PereslavlFoto
            19.03.2026 22:55

            За 30 минут можно свою статью написать, а не делать изложение чужого текста.

            Собственнику СМИ нужен человек, который в точности изложит слова собственника СМИ.


  1. debagger
    19.03.2026 22:55

    А вы не пробовали делать fine-tune? Что то мне подсказывает, что это могло бы дать гораздо лучшие результаты, чем любые трюки с промтами.


    1. dimka11
      19.03.2026 22:55

      fine-tune современных LLM вроде тоже промптами делается? Или в реальности классический fine-tuning тоже используется?


      1. vaganovelena Автор
        19.03.2026 22:55

        файнтюнинг как обновление весов используется и работает, опен аи его например продает. Это не промпты, оно реально меняет модель под ваши данные. LoRA - более дешёвый вариант того же, обновляет меньше параметров. Тоже живой и популярный. Есть еще промпт-тюнинг, отдельная техника, слабее по результату. Так что @debagger прав - fine-tune мог бы помочь. Вопрос в экономике, дорого это


    1. vaganovelena Автор
      19.03.2026 22:55

      Думали, не делали. Главная проблема - у нас каждый клиент это отдельный стиль. Fine-tune под каждого будет отдельная модель под каждого, это не масштабируется. Один общий fine-tune сожрет индивидуальный голос издания.

      Плюс данных мало - 70-100 статей на клиента против нужных тысяч с разметкой. Экономика пока не складывается. Если объём данных вырастет, это будет следующий шаг. Пока RAG с тематическими примерами как рабочий компромисс.


  1. Chillingwilli
    19.03.2026 22:55

    Потратили три месяца на написание мультиагентного пайплайна, чтобы выяснить, что алгоритм не умеет в сочувствие и литературный контраст. Сюрприз, однако :)


    1. vaganovelena Автор
      19.03.2026 22:55

      Три месяца на рабочую систему, не на открытие что AI не умеет в литературный контраст. «Мальчик» вместо «подростка» - это вопрос объёма данных и времени, не принципиальный предел. А про сочувствие спросите у людей, которые с гпт как с психологом общаются.


  1. BigBrother
    19.03.2026 22:55

    Парень, мальчик, подросток... Вы это серьезно? Тут на местных новостных сайтах постоянно опечатки, путают -тся и -ться, чудовищные обороты. А вы про какой-то стиль Фонтанки.
    Главная проблема в России и особенно в местной прессе в содержании новостей, а не в их подаче. А уж как там мальчика назовут — для рядового читателя дело десятое.


    1. PereslavlFoto
      19.03.2026 22:55

      Содержание новостей всегда одинаковое: что произошло в жизни местных жителей, то есть мэра и его заместителей.


      1. vaganovelena Автор
        19.03.2026 22:55

        категорически согласна - новости одни, подача решает


  1. BigBrother
    19.03.2026 22:55

    Итак, читаем источник из СК:

    В Уфе задержали подростка, который вербовал старшеклассников и планировал теракт в православном храме. ФСБ задержала 16-летнего парня из Башкортостана...

    Теперь смотрим "эталонный" рерайт Фонтанки:

    В Уфе задержали школьника, его подозревают в подготовке теракта в храме по заданию кураторов. Мальчик, по данным правоохранителей, был завербован.

    Все круто у Фонтанки: противопоставление ребенка и казенного, мальчика и террориста. Вот только в оригинале новости подросток / парень сам вербовал старшеклассников на нехорошее дело.
    А вот у Фонтанки зачем-то перевернули все предложение и использовали пассивный залог. В итоге мальчик / школьник был завербован неким неизвестным. Т.е. извратили смысл с точностью до наоборот.
    В общем, в очередной раз "ученый изнасиловал журналиста", по другому не скажешь.


    1. vaganovelena Автор
      19.03.2026 22:55

      Фонтанка реально сделала его жертвой вербовки - акценты перевёрнуты. Это редакционная позиция, упакованная в синтаксис. И в этом сила СМИ. Позицию Фонтанки не разделяю, просто пример показательный