Пока все смотрят на LLM: почему классический ML годами зарабатывает сотни миллионов? / forpes.ru

Главная
Пока все смотрят на LLM: почему классический ML годами зарабатывает сотни миллионов?

Пока все смотрят на LLM: почему классический ML годами зарабатывает сотни миллионов? +1

03.06.2026 09:01

Bimchine 0 248 Источник

В ленте сплошные языковые модели и агенты, а инвесторы спорят про окупаемость GenAI. Тем временем «скучный» классический ML: градиентный бустинг, аплифт модели, recsys, поведенческая биометрика, до сих пор тихо приносит реальную выручку.

Я Senior Data Scientist, работаю в финтехе, а также являюсь спикером по карьере и аналитике/ML в ИТМО и ВШЭ. В статье решил разобрать на реальных примерах зрелых компаний, которые уже доказали окупаемость, и одной из новой волны, что классика все еще жива и нужно знать истоки ML.

Почему стоит об этом говорить

Информационный фон создает ощущение, что весь Data Science теперь — это промптинг и языковые модели. Те, кто входит в профессию, нередко думают, что классический ML устарел. Каждый второй студент говорит о том, что хочет в CV, NLP, часто при этом не зная как построить ROC-кривую или почему градиентный бустинг до сих пор выигрывает на табличных данных. Человек метит в продвинутую тему, не закрыв фундамент, на котором эта тема стоит.

Я не виню в этом студентов, так просто устроен информационный поток. О новой языковой модели напишут все, о том как градиентный бустинг на табличных данных годами приносит банку миллионы просто уже не тренд рассказывать. В результате формируется искаженная карта профессии: яркое и хайповое кажется большим, а основа — маленькой и устаревшей. Реальность ровно обратная.

И тут эта искаженная картинка очень сильно влияет, когда человек выбирает, что учить, он пропускает то, за что рынок на самом деле платит чаще всего и стабильнее всего. Поэтому дальше рассмотрим четыре компании на классическом ML. Три уже прошли путь до доказанной окупаемости, одна — представитель новой волны. У всех под капотом не языковая модель, а та самая «скучная» классика.

Часть 1. Публичные компании — цифры из отчетности

1. Riskified — антифрод для ecommerce

Основана в 2013 · NYSE: RSKD (IPO 2021) Выручка FY2025 — $344,6 млн · впервые GAAP-прибыль в Q4 2025 (чистая прибыль $5,8 млн) · EBITDA за 2025 — $26,7 млн

Riskified берет на себя гарантию по чарджбэкам: одобряет транзакцию, и если она оказалась мошеннической, то убыток несет сама. По итогам 2025 года компания впервые в истории показала квартальную GAAP-прибыль (спустя более десяти лет после основания и четыре года после IPO). Это и есть наглядная «окупаемость»: момент, когда бизнес на классическом ML перешел из убытков в плюс.

Почему здесь работает классика. Задача, где LLM бесполезна, а классический ML незаменим. Решение «фрод / не фрод» нужно принять за миллисекунды на табличных признаках транзакции, оно должно быть воспроизводимым и объяснимым для аудита. В своей отчетности рост прибыли компания прямо связывает с улучшением технических характеристик модели . Здесь качество ML напрямую конвертируется в маржу.

Источники: результаты Q4 и FY2025 (выручка $344,6 млн, чистая прибыль Q4 $5,76 млн, Adjusted EBITDA $26,7 млн) — официальная отчетность Riskified, форма 6-K, поданная в SEC.

2. Upstart — кредитный скоринг и андеррайтинг

Область: кредитный скоринг · основана в 2012 · NASDAQ: UPST (IPO 2020). Рост выручки за 2025 — +64% год к году · возврат к устойчивой GAAP-прибыли · более 90% займов одобряются автоматически.

Upstart — маркетплейс кредитования: его ML-модели оценивают кредитный риск заемщика, а выдают займы более 100 банков и кредитных союзов, подключенных к платформе. В 2025 году компания выросла по выручке на 64% и вернулась к устойчивой GAAP-прибыли. Более 90% займов одобряются полностью автоматически, без участия человека.

Почему здесь работает классика. Кредитный скоринг — задача классического ML: оценка вероятности дефолта по табличным признакам заёмщика. Ключевое требование — не «креативность», а точность, стабильность и объяснимость: отказ в кредите нужно уметь обосновать перед регулятором. Именно поэтому выбирают интерпретируемые модели на структурированных данных, а не языковая модель.

Источник: официальная отчетность Upstart, формы 8-K, результаты кварталов и полного 2025 года, поданные в SEC (EDGAR, CIK 0001647639).

Группа 2. Частные компании, выручка оценочная

3. Algolia — поиск и рекомендации как сервис

Область: поиск и рекомендации · основана в 2012 · частная компания. Выручка 2024 — около $100 млн · оценка (пик 2021) $2,25 млрд · привлечено около $335 млн

Algolia — это поиск по сайту и рекомендательные карусели «вам может понравиться», предоставляемые как API. По оценкам агрегаторов, выручка прошла путь от ~$40 млн (2018) к ~$100 млн (2024). Честная оговорка: оценка компании в 2022-м корректировалась вниз, так как рынок проходил переоценку, но выручка при этом продолжала расти.

Почему здесь работает классика. Рекомендации «похожие товары» и «с этим покупают» — это классические алгоритмы (коллаборативная фильтрация, ранжирование) на поведенческих данных. Ценность для клиента измеримая: больше страниц за визит, выше кросс-продажи и конверсия. Языковая модель для ранжирования каталога тут не требуется.

Источники: оценки выручки — агрегатор GetLatka; суммы раундов и оценка $2,25 млрд — публичные данные о финансировании.

4. o9 Solutions — прогноз спроса и планирование

Область: прогноз спроса · основана в 2009 · частная компания. Выручка 2024 — около $157 млн · оценка $3,7 млрд · привлечено около $500+ млн

o9 Solutions — платформа планирования для крупных предприятий: прогноз спроса, управление запасами, планирование цепочки поставок. Среди клиентов — Nike, PepsiCo и другие глобальные компании. По оценкам агрегаторов, выручка выросла с ~$120 млн (2023) до ~$157 млн (2024) при оценке компании $3,7 млрд.

Почему здесь работает классика. Прогноз спроса — это работа с временными рядами и табличными данными: сезонность, тренды, влияние промо. Под капотом o9 стоит графовая модель данных (Enterprise Knowledge Graph) и ML-форсайтинг. Ценность снова измерима в деньгах клиента: меньше избыточных запасов, меньше списаний. Один из клиентов сообщает о сокращении брака примерно на 50% за счёт точного прогноза. Это область, где ошибка прогноза прямо конвертируется в замороженный капитал и где классические методы десятилетиями остаются основой.

Источники: оценки выручки 2024 и 2023 — агрегатор GetLatka; оценка $3,7 млрд и суммы раундов — пресс-релиз o9 Solutions, ссылка

Часть 3. Новая волна

5. Sardine — риск-платформа: фрод, комплаенс, андеррайтинг

Основана в 2020 · частная компания. Оценка (2025) — $660 млн · привлечено около $145 млн · рост выручки +130% год к году

Sardine — единственная компания в подборке моложе пяти лет. Основана в 2020-м выходцами из риск-команд Coinbase, Revolut, Uber и PayPal. В феврале 2025 года закрыла Series C на $70 млн (всего привлечено ~$145 млн), оценка $660 млн.

Важная честная оговорка: у Sardine нет публичной прибыли, так как компания на стадии роста, и ее «окупаемость» пока не доказана, в отличие от Riskified. Однако компания сообщает о росте годовой выручки (ARR) на 130% за год и почти удвоении клиентской базы. Это заявка на будущую окупаемость, а не сама окупаемость (важно не путать одно с другим).

Почему здесь работает классика. Под капотом Sardine — device intelligence и поведенческая биометрика: классические ML-подходы к распознаванию мошенника по тому, как он печатает, держит телефон, ведет себя на сайте. Компания сообщает о профилировании более 2 млрд устройств — и это снова про данные как актив. В маркетинге Sardine сейчас активно использует слово «AI-агенты», но ядро, на котором детектируется фрод, именно классический ML на поведенческих и device-сигналах.

Источники: Series C $70 млн, оценка $660 млн, общая сумма ~$145 млн — Bloomberg и Crunchbase News; год основания, состав основателей, рост ARR +130% — официальный анонс Sardine.

Так почему классика ?

Если свести разборы воедино, видно несколько причин, почему «скучный» ML переживет любой цикл хайпа.

Задача определяет инструмент, а не мода. Антифрод — это классификация и ранжирование на табличных и поведенческих данных, с требованием миллисекундной скорости и объяснимости. Языковая модель здесь не нужна и часто прямо противопоказана: медленнее, дороже на инференсе, хуже поддается аудиту. Какой бы мощной ни была новая LLM, она не станет правильным инструментом для задачи, где нужно принять решение за 50 миллисекунд и потом объяснить регулятору, почему.
Результат измерим и продается. У всех четырех ценность сводится к числу: спасенные от чарджбэка деньги, отыгранные ложные отказы. За измеримый ROI клиент платит предсказуемо и долго. Это контраст с частью GenAI-продуктов, где ценность формулируется расплывчато («повышает продуктивность»). Классический ML живет ровно в тех нишах, где результат оцифровывается, и именно поэтому у него предсказуемая выручка, а не венчурные качели.
Данные — это барьер, который не копируется. Сетевой эффект Signifyd, cross-merchant dataset Forter, 2 млрд устройств Sardine. Модель повторить можно за месяц, накопленный датасет нет. Сами модели стали почти товаром массового потребления (открытые веса, доступные API), конкурентное преимущество окончательно сместилось с алгоритма на данные. Это переворачивает привычную для новичка картину «кто знает более модную архитектуру, тот и сильнее». На рынке выигрывает не тот, у кого изощреннее модель, а тот, у кого есть проприетарные данные и умение их готовить. Классические ML-компании поняли это десять лет назад, поэтому устойчивы.
Окупаемость — это марафон. И здесь главное наблюдение из контраста двух частей статьи. Riskified шла к первой GAAP-прибыли больше десяти лет. Sardine, которой пять лет, показывает мощный рост, но прибыли еще нет. И это нормальный цикл: сильный ML-бизнес сначала растет на инвесторских деньгах и только потом окупается. Поэтому «доказанная окупаемость» и «свежий стартап» — почти всегда разные стадии одного пути. Не стоит путать отсутствие прибыли сегодня с отсутствием жизнеспособности.

Классика и LLM — не конкуренты, а разные слои. Обратите внимание: все четыре компании сегодня добавляют в продукт LLM-агентов — Sardine прямо строит «AI-агентов для риск-команд». Но агенты у них стоят сверху, как слой автоматизации рутины аналитика, а решение «фрод или не фрод» по-прежнему принимает классическая модель на поведенческих сигналах. Это и есть здоровая архитектура: классический ML — фундамент, отвечающий за точность и скорость, LLM — надстройка, отвечающая за удобство. Противопоставление «классика против LLM», которое создает информационный фон, оказывается ложным. Вопрос не «что победит», а «что для какого слоя».

Что из этого следует, если вы метите в Data Science

Главный вывод для тех, кто входит в профессию: не списывайте классический ML со счетов ради хайпа. Рынок, где платят за бустинг и поведенческую биометрику, огромен и устойчив. В нем все еще сохраняется спрос на специалистов, которые умеют не промптить, а строить модель, измерять ее вклад и доводить до продакшена.

На собеседованиях в сильные команды это и проверяют: дисбаланс классов, отложенная выборка, A/B-тест, интерпретация, дрифты, лик. Это фундамент, и он не устаревает. LLM — полезный инструмент в арсенале, но начать строить карьеру стоит точно на фундаменте.

Практичный порядок такой: сначала фундамент — статистика, классические модели, валидация, метрики, умение довести решение до продакшена. Потом уже специализация в той области, которая нравится, будь то CV, NLP или те же рекомендательные системы. LLM при этом осваивается как рабочий инструмент по ходу, а не вместо всего остального. Скучная часть, которую хочется пропустить ради интересной, эта та, за которую платят сотни миллионов компании из этой статьи. И на собеседовании спросят именно про нее.

Если хотите освоить машинное обучение и увереннее проходить собеседования — напишите мне в личку тг @bimchine_work, рассмотрим ваш случай и куда вам стоит двигаться. Разборы рынка и задач регулярно выкладываю в телеграм-канале.

А вы на чьей стороне: классика или LLM ?