В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

Начнем с того, что речь идет о модели DeepSeek R1, которая вышла еще 20 января этого года. Тогда это была впечатляющая модель: китайцы смогли повторить рассуждающий режим, представленный OpenAI в o1, а также применили ряд интересных технических решений. Вообще, статья Nature во многом повторяет ранние заявления авторов DeepSeek, после которых 27 января индекс NASDAQ падал на 3,1%, а акции NVIDIA обрушились на рекордные 17%.

Но прошло уже восемь месяцев, индекс давно отыграл падение, акции NVIDIA стоят почти на 50% дороже, а вот DeepSeek, наоборот, задерживает выход R2, ограничившись лишь минорными обновлениями своих текущих моделей. Что же случилось?

Начнем с цифры в $294 тысячи долларов. Ее расчитали сами авторы: модель тренировали на кластере из 512 ускорителей H800, потратив на прогон всего 147 тысяч GPU·ч. При оценки стоимости одного GPU·ч в $2 и получились пресловутые $294 тыс. Цифра похожа на правду, но это не обучение всей модели.

DeepSeek R1 — не отдельная модель вовсе, а рассуждающая надстройка над вышедшей месяцем ранее DeepSeek V3. Из техотчета той же DeepSeek видно, что на обучение V3 потратили уже ≈2.788 млн H800 GPU·ч — если брать те же самые $2, то получаем почти $5,6 млн. Очевидно, что V3 выполняла и свои задачи (это модель быстрых ответов), но без нее R1 просто не могла бы существовать — и мы уже получаем цену в 20 раз выше, которая, кстати, близка к десяткам миллионов долларов на обучение Sonnet 3.7.

Кроме того, все в том же техотчете говорится, что ≈2.788 млн H800 GPU·ч — это цифры только для официального тренинга, без стоимости предыдущих исследований и экспериментов с архитектурой, данными и алгоритмами с целью найти оптимальную конфигурацию для обучения. Оценка затрат на эти эксперименты не приводится.

Аналогично, кстати, и с R1 — в той же статье Nature говорится, что разработчики начинали с предварительных экспериментов на меньшей модели и ускорителях A800. Конечно, это цифры другого порядка, но их также следовало бы добавить к цене обучения.

Если совсем придираться, то можно посмотреть и на оценку в 2 доллара за один GPU·ч на H800. На публичных облаках типа Lambda цена варируется в диапазоне от $3 до $6. Очевидно, что облакам нужно зарабатывать на клиентах, но важен и другой аргумент: Китай находится под санкциями и поставки карт типа H800 идут по неофициальным каналам, что сразу же повышает стоимость. Если расчет не верен и час тренировки обходился в 3-4 доллара, то стоимость обучения существенно вырастает.

Этим небольшим текстом я ни в коем случае не хочу раскритиковать DeepSeek R1. В Китае бренд DeepSeek стал практически именем нарицательным, а в России выход именно этой модели — мощной, бесплатной и без региональных ограничений — стал важным этапом для популяризации ИИ. Но неправильная оценка стоимости разработки данного ИИ может вести к неправильным выводам, что DeepSeek обладает неким преимуществом над конкурентами вроде OpenAI и Google. А это не так — и задержка разработки R2 является хорошим доказательством.

P.S. Поддержать меня можно подпиской на канал »сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Комментарии (0)


  1. zababurin
    20.09.2025 13:47

    Хотелось бы ChatGPT последний попробовать, но там какие то ограничения. Мне DeepSeek пока вроде хватает.