Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить / forpes.ru

Главная
Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить +3

03.09.2025 16:24

OyminiRole1776 12 1200 Источник

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом «нужно быстро вникнуть». Или например у тебя завтра сессия и тебе быстро нужно погрузиться в кучу информации. Что ты делаешь в обоих случаях? Ищешь сервис, который сделает краткую выжимку.

И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает.

Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

Три уровня понимания текста. Почему мы застряли на первом?

Размышляя над этим, я понял, что существует три уровня работы с информацией. И 99% инструментов не поднимаются выше первого.

Уровень 1: Извлечение. Это работа «маркера‑выделителя». Алгоритм бежит по тексту и выдергивает предложения, в которых много ключевых слов. Это самый примитивный подход. Он отвечает на вопрос «Что здесь написано?», но полностью игнорирует «Почему и Как?». В итоге ты получаешь набор фактов, но не понимаешь их связи.

Уровень 2: Абстрагирование. Это уже лучше. Здесь машина пытается пересказать основные идеи своими словами. Уже есть попытка обобщения, но структура всё ещё теряется. Это хороший способ быстро понять суть одной главы, но не всей книги.

Уровень 3: Структурирование. Это высший уровень. Цель — не пересказать, а вскрыть логический скелет текста. Найти главную цель или проблему, ключевые аргументы и детали. Только так можно построить картину мыслей автора. Ты не просто знаешь факты, ты понимаешь, как один вытекает из другого.

Настоящее понимание — это третий уровень. А мы до сих пор пытаемся решить задачу инструментами первого уровня.

Мой эксперимент

Я решил попробовать научить машину работать на третьем уровне. Не сокращать, а структурировать. Не выкидывать лишнее, а находить связи между частями.

Ключевой задачей было избавиться от окна контекста, из‑за которого большинство моделей ломаются на больших документах. Я хотел, чтобы инструмент мог проанализировать хоть статью, хоть целую книгу, сохраняя общую логическую структуру от первой до последней страницы

И это сработало.

Алгоритм не просто выкинул воду. Он вскрыл структуру: нашёл цель, построил пошаговый процесс и выделил важные детали. Хаос превратился в понятную схему. Протестировать работу вы можете сами БЕСПЛАТНО.

Этот эксперимент и философия легли в основу моего инструмента — Shear AI.

Это не убийца Google. Это моя скромная попытка создать инструмент, который помогает работать с текстом на третьем уровне — уровне структуры и смысла, а так же обрабатывать большие документы.

Проект на самой ранней стадии, он сырой, и я буду безумно благодарен за любую обратную связь. Если у вас есть статья, отчет или документ, который вы давно откладывали на потом — попробуйте прогнать его через Shear AI.

А если продукт вам понравится, то вот промокод на скидку в 20%: SAVE2

Попробовать можно бесплатно

Комментарии (12)

Kamil_GR
03.09.2025 18:55
#28792626
Надо бы добавить сообщение об ошибке, или нарушении правил. А то просто таймер крутится.... 12 минут на три абзаца многовато
1. OyminiRole1776 Автор
  03.09.2025 18:55
  #28793228
  Благодарю!

Hopenolis
03.09.2025 18:55
#28793146
Проверить возможности нет. Всего 100т токенов дается, причем это не настоящие токены а символы. Закинул текст 15т символов, осталось 85т "токенов". Получил обычный пересказ, ничего особенного. Целую книгу закинуть не получится потому что в ней гораздо больше символов.

Похоже что просто очередной скам - попытка перепродавать гпт на развес под прикрытием чего то невероятного.
1. OyminiRole1776 Автор
  03.09.2025 18:55
  #28793226
  Привет! Спасибо за развернутый фидбек, это очень помогает на старте. Попробую ответить по пунктам:
  
  Про токены/символы: Считаются именно символы.
  
  Про "обычный пересказ": Здесь самое интересное. Основная магия сервиса не в том, чтобы сгенерировать текст (с этим и гпт отлично справляется), а в том, чтобы корректно обрабатывать ОГРОМНЫЕ объемы данных (целые книги, отчеты на 500+ страниц), которые в стандартные нейросети просто не помещаются из-за лимита на контекст. Сервис под капотом сам разбивает документ, анализирует и собирает единое саммари, сохраняя сквозной контекст. Это и есть та основная инженерная задача, которую он решает.
  
  Про бесплатный тариф и скам: Бесплатные 100 000 символов (~50 страниц) как раз и даны для того, чтобы можно было протестировать качество на реальном, большом куске текста (например, на главе книги или статье), а не на паре абзацев. Чтобы убедиться, что на выходе получается связный и качественный результат.
  
  Решить все задачи бесплатно не получится - вычислительные мощности стоят дорого.
  1. pol_pot
    03.09.2025 18:55
    #28793232
    Глава книги это небольшой кусок текста, обычный чатгпт может переварить около 300т символов за раз и этого хватает на большинство книг. Гугл джемини (и некоторые другие) могут 1млн токенов или 3млн русских символов, таких больших книг не бывает но если надо то оно давно есть, причем бесплатно.
    
    зы попробовал запихнуть в твою машинку субтитры от ютуб ролика 60т символов, получил отказ по цензуре. Проверил на сайте чатгпт - все ок, джемини тоже ок.
    
    OyminiRole1776 Автор
    03.09.2025 18:55
    #28793242
    Спасибо за такой подробный фидбек. Вы подняли несколько очень важных тем, которые я, видимо, плохо объяснил на старте. Позвольте прояснить.
    
    1. Насчет сравнения с ChatGPT и Gemini:
    Вы правы, у гигантов сейчас огромные окна контекста. Но могут не всегда значит делают хорошо.
    
    Моя цель - не просто переварить 2 млн символов, а сохранить сквозной контекст и логику от начала до конца документа. На больших объемах (>150к символов) большие модели часто начинают плыть, забывать детали из начала текста и терять фокус. Мой сервис использует другой подход: он анализирует документ целиком, сохраняя его структуру, что позволяет делать более точные и связные саммари именно для сложных, структурированных текстов.
    
    Ключевое преимущество - в удобстве и специализации. Это не чат-бот, а инструмент: загрузил файл - получил результат. Без необходимости резать текст на куски и возиться с промптами.
    
    2. Для каких документов сервис подходит лучше всего:
    Насчет субтитров - это интересный кейс. Изначально сервис проектировался и затачивался для работы с деловыми, научными и техническими текстами, где важна логика, факты и структура. Художественные тексты или диалоги он НЕ обрабатывает, и ваш пример показал мне, что нужно четче об этом написать на сайте. Я не вижу смысла в том, чтобы сокращать худ. произведение, поэтому и происходит цензура.

GooseWing
03.09.2025 18:55
#28793398
А гост на 2000 страниц (перевод в тхт дал 6,5 лямов символов) реально вообще переварить?)
1. pol_pot
  03.09.2025 18:55
  #28793800
  Как он должен выглядеть в переваренном виде?
  1. GooseWing
    03.09.2025 18:55
    #28793836
    Вместо километров таблиц и текста, например, более емкий вариант с выделением важных выкладок.
1. OyminiRole1776 Автор
  03.09.2025 18:55
  #28793850
  Если я лимит особой выделю, то да. Как бы с точки зрения самого алгоритма ограничения нету на длину. Но это займет время на обработку, + придется выделить лимиты для обработки такого объема
1. urvanov
  03.09.2025 18:55
  #28793924
  без потери смысла это точно никто не суммаризирует в пару предложений.

ENick
03.09.2025 18:55
#28793918
"Уровень 3: Структурирование. Это высший уровень. Цель — не пересказать, а вскрыть логический скелет текста. " - графовый алгоритм c кластеризацией или RAPTOR?

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить +3

Три уровня понимания текста. Почему мы застряли на первом?

Мой эксперимент

Комментарии (12)

OyminiRole1776 Автор

OyminiRole1776 Автор

OyminiRole1776 Автор

OyminiRole1776 Автор