В последние месяцы я всё чаще сталкиваюсь с одним и тем же выводом: внедрение LLM-систем (особенно с использованием RAG-подхода) тормозится не из-за самой модели, а из-за отсутствия качественных данных. Самое дорогое в процессе — это не запуск пайплайна, не подбор архитектуры, а подготовка структурированных, очищенных и корректных данных, пригодных для обучения или дообучения моделей. Всё чаще этот подход называют AI-Ready Data.

Модель — это лишь верхушка айсберга. Настоящая инженерия начинается задолго до неё.


Сырые данные против реальности

На практике данные для LLM чаще всего собираются из Word-документов, Excel-таблиц, корпоративных архивов или систем техподдержки. Всё это выглядит рабочим, но внутри — хаос: списки, вложенные таблицы, табуляции, спецсимволы, неявная структура. Модель тратит ресурсы не на понимание смысла, а на интерпретацию формата. В результате страдает не только точность, но и стабильность генерации.

 Особенно остро проблема встает при обучении моделей для поддержки — например, когда нужно создать ассистента первой линии, способного отвечать на типовые запросы пользователей. Запросы могут быть в одном файле, ответы — в комментариях другого. Соотнести всё это вручную — задача, близкая к невозможной. Автоматизировать? Скриптом — можно. Но каждый скрипт превращается в мини-проект, где любые изменения источников ломают логику, а edge-case’ы начинают жить своей жизнью.


Как мы подошли к решению

Для решения этой задачи я собрал внутреннюю микросистему, основной задачей которой стала организация данных, пригодных для дообучения LLM. Система написана на Ruby on Rails — моём основном стеке. Это не просто набор скриптов, а полноценная платформа, где:

            •           можно динамически создавать модели и задавать их поля;

            •           вручную заносить записи или подключать сбор данных через API;

            •           при необходимости — вызывать локальную LLM для предобработки данных;

            •           видеть и исправлять некорректные значения через веб-интерфейс;

            •           экспортировать очищенные данные в форматах, пригодных для обучения: JSON, CSV, TXT.

Основной принцип системы — отделить сбор и доработку данных от модели. Скрипт всегда можно дополнительно настроить или заменить, а данные — уже внутри платформы, отслеживаются, помечаются, сортируются. Это кардинально снижает зависимость от инфраструктуры и человеческого фактора.

Первый прототип приложения
Первый прототип приложения

Во-первых, это повторяемо. Получив однажды набор хорошо подготовленных данных, мы можем переобучить модель на новую задачу или на обновлённом корпусе — без повторной ручной возни.

Во-вторых, это масштабируемо. В систему можно загонять данные из разных источников, назначать на них разные скрипты, делать множественные итерации и использовать одну и ту же платформу для разных команд или моделей.

В-третьих, это гибко. Не всё удаётся автоматизировать. Иногда нужно зайти и руками поправить кривую запись или удалить шумный фрагмент. Интерфейс даёт такую возможность, не прерывая основную цепочку подготовки.


AI-Ready Data — это не buzzword, это инженерная необходимость

Всё чаще я вижу, как компании стремятся внедрить LLM, но фокусируются только на самой модели. Но модель без качественных входных данных — это генератор случайного текста. Настоящее преимущество даёт не просто доступ к LLM, а возможность обучить её на собственных, правильно подготовленных данных.

Тренд AI-Ready Data — это не мода, а зрелый подход. Он о том, как системно подходить к построению ИИ-инфраструктуры: с учётом чистоты данных, их формата, структуры, семантической точности.

Если вы хотите, чтобы LLM действительно работала на ваш бизнес — начните с данных.


Что дальше?

В этой статье я сознательно не углублялся в технические детали реализации. Но если вам интересно узнать, как построить подобную платформу у себя внутри (от моделей и API до схем хранения и логики правок) — напишите в комментариях. Если отклик будет, расскажу подробнее в следующей статье.

Спасибо за внимание!

Буду рад обсуждению, критике и обмену опытом в области LLM.

Комментарии (3)


  1. Fardeadok
    07.07.2025 11:56

    Это новый формат статей на хабре? - Накидать список проблем, заявить что решили их и молча уйти в закат


  1. Adgh
    07.07.2025 11:56

    Неплохо было бы упомянуть и про инициативы вроде A framework for Al-ready data (от ODI), а также упомянуть о том, как "боретесь" за деперсонализацию и в целом с "протечкой" чувствительной информации в наборы данных, предназначенные для обучения.

    Опять же может уже внедряете дополнительную разметку вроде Schema.org, или достраиваете графы знаний?

    Может уже и свой MCP-сервер реализовали?

    Я не столько иронизирую, сколько реально интересно. Да и заголовок статьи уж больно броский ("AI-Ready Data: ... с максимальной отдачей")


    1. Vladbrain Автор
      07.07.2025 11:56

      Много рассказать не получится, но у нас есть локальные LLM, поэтому деперсонализация не нужна. Эта статья больше про то, что надо подсветить проблему и понимать не выдуманная ли нами эта проблема