Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?
Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.
Цитата из Forbes ($):
Оборонное подразделение Scale всё ещё несопоставимо по масштабам с их коммерческим бизнесом, который к концу 2023 года разогнал годовой run rate компании до $750 млн, по словам двух источников, знакомых с ситуацией — по сравнению с примерно $250 млн в начале 2022 года. Этот рост был вызван взрывным спросом со стороны AI-компаний на RLHF — технику разметки данных для LLM.
У нас нет хороших способов получать экспертные датасеты в нужных нам доменах или добавлять достаточно данных, чтобы добиться нужной robustness моделей, и именно Scale стала основным игроком, который курирует большинство таких данных — разумеется, за приличную плату.
Доходы Scale отражают общее настроение в индустрии вокруг RLHF за последние годы. Мне интересно, откуда взялись те самые $250 млн в начале 2022 года, но могу точно сказать: множество бюджетов на данные по всей ML-индустрии было перераспределено в пользу RLHF. Чтобы делать RLHF качественно и построить sticky model (модель, которую сложно заменить), нужны серьёзные инвестиции.
Эти показатели по выручке недалеко ушли от того, что сейчас показывает OpenAI, хотя бизнес-модель у Scale совсем другая (и их оценка компании намного, намного ниже). Они зарабатывают не на инференсе и API-доступе к моделям, а на платных услугах по созданию и поддержке моделей. В то время как дискуссия вокруг провайдеров foundation models уже тщательно изучена — и обычно сводится к коммодитизации сервисов и гонке к ценовому дну, — полезно взглянуть на Scale: понять, на чём они делают деньги и где новые игроки будут пытаться войти на рынок.
Главный вопрос: существует ли какое-либо устойчивое конкурентное преимущество у компаний, которые поставляют данные для RLHF? Самый публичный пример того, за что на самом деле платят — в техническом отчёте Llama 2 (что может сильно измениться в Llama 3, потому что traction у Llama 2 Chat оказался крайне низким). В отчёте есть таблица, показывающая, что Meta купила более миллиона парных сравнений для своих моделей, в то время как аналогичные open-source датасеты едва дотягивают до 100k примеров.

В экстренном подкасте Latent Space, посвященном Llama 2, мы оценили, что стоимость только этого пакета данных составляла примерно $6–10 млн (экстраполируя из известных публичных контрактов и считая цену за одно сравнение). И это всего лишь один из множества экспериментов, которые компании вроде Meta проводят. У них также есть эксперименты с другими флагманскими моделями внутри GenAI‑организации, например, text‑to‑image и text‑to‑video, где, как можно утверждать, RLHF потенциально даёт ещё больше пользы.
Возвращаясь к информации о $750 млн годовой выручки, основная часть этой суммы, по сути, приходит от нескольких крупных контрактов вроде того, что делает Meta. Scale выступает провайдером, который управляет огромным количеством людей, создающих эти датасеты. При этом есть серьезные этические вызовы, связанные с такой работой, и репутация Scale в этой сфере, мягко говоря, неоднозначна. Но главный вопрос, который я пытаюсь понять: насколько фундаментально устойчив этот бизнес?
Пока основной фокус бизнеса остается на управлении массами людей и постоянном курировании датасетов, он не выглядит как tech‑компания с увеличивающейся прибылью при фиксированных капитальных затратах. До какой степени Scale AI сможет наращивать маржинальность, если единственный путь масштабирования — это нанимать всё больше и больше людей? Если бы я был на месте покупателя данных, одно из первых условий в контракте звучало бы так: «Мы не хотим, чтобы промпты и результаты, за которые мы платим, продавались другим клиентам.»
Есть и второй, более стратегический риск: неизвестно, как долго такие дата‑сервисы вообще будут нужны. Если базовые модели станут достаточно хорошими, будет ли всё ещё нужен RLHF и многочисленные техники fine‑tuning? По моему опыту, потребность в экспертных данных сохранится, но значительная часть «универсальных alignment‑данных» со временем станет open‑source и пригодной к переиспользованию.
Или, если смотреть еще шире: как долго все крупные tech‑компании будут продолжать тренировать LLM? В какой‑то момент состоится консолидация рынка: несколько компаний выиграют гонку, остальные замедлятся, и тогда Scale может потерять самые прибыльные контракты.
Хотя легко нарисовать здесь пессимистичный сценарий, важно понимать, что все AI‑стартапы находятся в той же лодке. Что будет с OpenAI, когда open-модели всерьёз и окончательно догонят по use case’ам, которые действительно важны большинству пользователей?
Конкуренция в области humans-in-the-loop
В прошлом году рынок RLHF какое-то время выглядел как нишевый рынок для безопасно-ориентированного обучения. Теперь же очевидно, что подход RLHF стал центральным для обеспечения стабильной ценности во множестве разных возможностей (например, математика или задачи в специализированных доменах). Забавно называть Scale AI «устоявшимся игроком» в этой конкуренции, учитывая, что это всё ещё стартап, но большинство компаний, основанных в доком ChatGPT-эпоху, уже ощущаются старыми по сравнению с волной новых стартапов последних одного-двух лет.
Хотя многие компании официально указаны как клиенты Scale, важно понимать, что в нескольких научных статьях, включая InstructGPT и работу Anthropic по RLHF, упоминается использование собственных внутренних аннотаторов. Некоторые ранние адоптеры RLHF уже ушли к другим провайдерам или построили собственные пайплайны. Среди небольших альтернатив Scale AI для работы с human data можно отметить Surge AI, Invisible, Prolific, Toloka AI (с представителями всех этих компаний я пересекался профессионально или лично за последние 15 месяцев), и, безусловно, есть многие другие, которых я пропустил.
Surge AI уже сумела вернуть себе часть бизнеса у Anthropic, выпустив несколько ярких редакционных материалов, где исследователи делятся своим опытом, включая Итана Переса:
С Surge пайплайн сбора human data теперь ощущается ближе к «запуску джобы на кластере», что для меня до сих пор дико.
Пока неясно, какие именно приросты в производительности происходят при смене провайдера, если судить по публичным данным. Выбор сервиса для разметки данных остается хаотичным процессом, на который сильно влияют обычные продажи и маркетинг. Через несколько лет станет очевидно, кто делает лучше остальных. Подсказка: я готов поспорить, что многие из них используют гибридные пайплайны с big LLM + human-in-the-loop.
В любом случае, наличие контрольных точек, связанных с производительностью модели, — это самое важное для таких бизнесов. Переход от простой передачи данных «через стену» к осмысленному вовлечению в оценку и обсуждения по обучению моделей становится ключевым. Модели — это по-прежнему то место, где принимаются основные решения.

Масштабирование Alignment-as-a-Service через AI feedback
Alignment-as-a-service (AaaS, рифмуется с Haas) — это концепция оплаты за рекуррентный сервис, который либо обеспечивает, либо мониторит работу LLM-эндпоинтов. Это может включать как выявление сценариев использования, которые не удовлетворяют пользователей, так и предоставление новых тренировочных данных для исправления проблем.
Я давно размышляю о том, как AaaS может стать основой для жизнеспособного стартапа. Чтобы приносить сверхвысокую прибыль, любая технологическая компания должна иметь значительную отдачу при фиксированных затратах. Предоставление RLHF как сервиса будет работать лучше всего, если фиксированные издержки — например, на данные или вычисления — смогут давать долгосрочную ценность. Здесь слишком много открытых вопросов и рисков. Пока что я вижу инструменты для управления моделями (например, continual training) как более маржинальный бизнес по сравнению с data services, но на текущем уровне технологий они менее стабильны и сложнее масштабируются.
Самый простой подход — попробовать обыграть Scale AI в их собственной игре. Если я пойду в Scale, куплю данных на $20 млн и буду использовать эти данные снова и снова для удовлетворения тренировочных потребностей большего числа клиентов, у меня может получиться устойчивый долгосрочный бизнес. Главная проблема этой стратегии в том, что нужен on-policy data — то есть данные, сгенерированные моделями, которые ты обучаешь, — а фиксированный датасет по определению этого не даёт. Даже если можно регенерировать ответы на промпт, это не создаёт необходимых пар chosen-rejected, которые критически важны для RLHF.
Самая большая часть потенциального рынка для такой компании заключается в решении качественных проблем, которые описывает Джон Шульман в своём докладе о Proxy Objectives на ICML. По сути, Джон описывает, что ChatGPT играет в «крота» с возможностями через RLHF: улучшают поведение в одном сегменте распределения пользовательских запросов, но из-за этого всплывает другая проблема. Технически это, вероятно, выглядит как постоянное дообучение уже fine-tuned модели на немного большем объёме данных, отражающем новые use case’ы (что сложно из-за рисков нестабильности при out-of-distribution данных в RL), либо как повторный прогон фазы alignment в обучении модели с новыми instruction- и preference-датасетами, которые, скорее всего, охватывают это новое поведение.
Как бы на это ни смотреть, необходимость постоянно мониторить поведение деплоенной модели и быстро обновлять её возможности делает это направление крайне ценным бизнесом. Компании, предлагающие alignment-as-a-service, могут начинать с помощи в fine-tuning для тех, кто хочет поэкспериментировать с самой свежей open-source моделью. А затем они могут двигаться глубже по стеку — к управлению доступом к вычислительным ресурсам, деплою и другим ключевым зонам для ML-стартапов.
Всё это звучит хорошо, но над такими стартапами, Scale AI и их конкурентами нависает важный вопрос: что произойдет, когда синтетические данные станут действительно качественным? Главным преимуществом humans-in-the-loop датасетов сейчас остаётся достаточная вариативность. При генерации промптов с помощью LLM очень сложно добиться по-настоящему разнообразного датасета. Могут ли синтетические данные дойти до того уровня, что мы сможем заказывать датасет «в один клик», который покроет все наши потребности? Я подозреваю, что это будет как минимум в 100 раз дешевле, чем то, что предлагают Scale AI и им подобные сейчас.
Если бы я делал это сам, я бы постарался заполучить лучшие внутренние модели-критики и reward-модели. Надёжная модель-критик позволяет внедрять подходы вроде Constitutional AI и собирать датасеты правок, а хорошая reward-модель даёт возможность сильно бустить основную модель даже базовыми методами отбора данных. Полагаю, такие модели открывают путь к более простым инструментам оценивания следующего поколения.
Независимо от того, кто именно выиграет в этой гонке (я предполагаю, что победителей будет несколько), здорово видеть, что в AI-индустрии появляются жизнеспособные бизнес-модели. Это полезно для всей отрасли.
Главный риск для всех этих alignment-компаний — это достижение такого уровня качества базовых моделей, при котором RLHF больше не будет нужен. Чем дольше RLHF остаётся критически важной частью процесса, тем менее вероятен этот сценарий (во многом из-за эффекта «sunk cost» у людей, принимающих решения, которые уже вложили миллиарды). Тем не менее важно учитывать, что может привести твой бизнес к полному нулю. Думаю, что даже если безопасность и улучшение возможностей моделей перестанут требовать RLHF, рынок персонализации всё равно будет приносить серьёзную ценность, хотя, возможно, уже не на уровне выручки в $1 млрд.