История успеха, из-за которой компания перестала работать с Rust / forpes.ru

Главная
История успеха, из-за которой компания перестала работать с Rust

История успеха, из-за которой компания перестала работать с Rust +29

01.07.2025 11:09

PatientZero 30 15000 Источник

Пользователь Reddit опубликовал в r/rustjerk сгенерированный ИИ пост под названием «Почему наш CTO запретил использовать Rust после одного переписывания кода». Очевидно, что этот рассказ выдуман, но у меня есть история, похожая на него в том смысле, что успех проекта на Rust привёл к прекращению использования этого языка в компании.

Несколько лет назад я работал в стартапе-«единороге», во время пандемии развивавшемся невероятно быстро. Его основное приложение было написано на Ruby on Rails, а часть инструментария для работы с видео — на Node.js, но мы никак не применяли быстрые компилируемые языки наподобие Rust и Go. Через пару месяцев после моего прихода в компанию нам нужно было реализовать работающий в реальном времени сервис, который бы позволял нам получать информацию о том, кто из пользователей находится онлайн (то есть в профиле есть зелёная точка) и чем они занимаются (например: N пользователей смотрят презентацию X, M пользователей находятся в разделе маркетинга и так далее). Ничего особо сложного, но мы рассчитывали на изначальный рост до ста тысяч пользователей. Эта цель тоже не особо сложна, но большинство разработчиков согласилось, что Ruby — не лучший выбор для этого.

Начались дискуссии о выборе языка. Команда, которая должна была писать сервис, выбрала Rust, но руководство пока не было уверено, поэтому предложило написать в качестве proof of concept несколько сервисов, по одному на каждом из языков: Elixir, Rust, Ruby и Node.js. Тогда я был в отпуске, поэтому, честно говоря, не знаю, почему в этот список не вошёл Go, который мог бы стать вполне подходящим кандидатом. Спустя примерно неделю proof of concept были завершены, и мы провели их бенчмаркинг. Я не был в команде, проводившей их, но выполнял множество задач, связанных с производительностью и наблюдаемостью, поэтому помогал в бенчмаркинге. Результаты меня не удивили: Rust оказался самым быстрым и потреблял меньше всего памяти, затем шли Elixir, Node.js и Ruby. Впрочем, тонкость в том, что версию на Node.js в конечном итоге пришлось бы сделать распределённой из-за однопоточной среды выполнения. Ещё один интересный аспект заключался в том, что версия на Rust содержала проблему, вызванную тем, что разработчик при отправке сообщений клиентам использовал async future — они обходили всех клиентов, чтобы получить список каналов, в которые нужно выполнять передачу, что при высоких нагрузках блокировало среду выполнения на несколько секунд. Если знаешь, что делать, эту проблему легко решить, но новичок, скорее всего, сделал бы всё правильнее на Go или Elixir, чем на Rust. Впрочем, возможно, я и не прав, ведь другие proof of concept (PoC) были написаны людьми, имевшими опыт работы с соответствующими языками, и только PoC на Rust был написан новичком в этом языке.

Обсудив бенчмарки, эргономику языков и то, насколько они хорошо подходят для компании, команда снова выбрала Rust. Ещё один любопытный аспект — человек, писавший PoC на Rust, изначально голосовал за Elixir, потому что уже имел опыт работы с Elixir, но после PoC он проголосовал за Rust. В целом, я думаю, что одной из главных причин выбора Rust была его универсальность. Его не только считали подходящим для работы с сетью и веб-сервисов, но и потенциально могли задействовать для совместного использования кода с Node.js, Ruby и другими языками (например, в то время мы уже знали, что идут переговоры о приобретении стартапа, написанного на Python). Также мы обсуждали написание SDK для наших API на различных языках, и это тоже было ещё одним потенциально интересным сценарием использования — написать ядро на Rust, добавить обёртки для Ruby, Python, Node.js и так далее.

На proof of concept потребовалось время, поэтому сроки поджимали, и писать сервис на Rust вместо команды предложено было мне, ведь у меня был опыт работы с этим языком. Я работал вместе с автором PoC на Rust и стремился давать ему писать как можно больше кода; мы часто проводили сессии парного программирования.

Из-за временных ограничений я хотел максимально всё упростить, поэтому предложил решение в стиле базы данных. Если рабочая нагрузка достаточно проста, поддержка ста тысяч соединений на Rust не будет чем-то особенным. Кроме того, для MVP нам не требовалось никаких сложных фич: достаточно было запрашивать, находится ли пользователь с указанным id онлайн, и с какой частью приложения он работает. Если пользователь отключается, то это значит, что он офлайн. Если сервис умирает, мы перезапускаем его и позволяем клиентам подключиться повторно. Позже мы собирались добавить события наподобие user_online и user_entered_area, но в этом мы тоже не видели ничего особо сложного. Для работы в реальном времени мы хранили бы всё в памяти и отправляли события в Kafka для последующей обработки. То есть сервис, по сути, был API на основе WebSocket, обёртывающим несколько хэш-таблиц в памяти.

Первую готовую для продакшена версию мы написали за две недели. Спустя ещё одну-две недели мы развернули её, потому что команде SRE требовалось время на подготовку инфраструктуры. Это были два сервера с автоматическим включением резерва — в случае сбоя основного сервера мы переключали всех клиентов на резервный. Примерно в течение месяца мы добавили ещё несколько фич, и сервис без проблем работал с ожидаемой нагрузкой в чуть менее ста тысяч пользователей.

К сожалению, планы внутри компании поменялись, и нас попросили перевести сервис в режим обслуживания, потому что компания не хотела больше вкладываться в фичи реального времени. Поэтому мы проверили работу алертов, инструментации и так далее, оставили сервис работать и с ворчанием вернулись в свои старые команды к своим старым задачам. Сервис непрерывно работал в течение следующих нескольких месяцев. Никаких ошибок и багов, ничего — идеал для инфраструктурной команды.

Спустя несколько месяцев компания готовила большое событие с ожидаемым пиком в пятьсот тысяч одновременных пользователей. Я и второй автор сервиса были заняты другими задачами, поэтому компания решила нанять трёх разработчиков на Rust, чтобы обеспечить нужную производительность сервиса. Новая команда приступила к бенчмаркингу и обнаружила несколько узких мест... снаружи сервиса. После настройки параметров ядра, изменений в конфигурации балансировщика нагрузок и так далее сервис мог обрабатывать миллион одновременных пользователей с p99=10 мс и два миллиона пользователей с p99=25 мс. Точные значения я не помню, но примерно такие результаты были получены на машине с 64 ядрами (или около того).

И здесь начались проблемы. Когда руководство решило нанять разработчиков на Rust, отвечавший за это решение директор был настроен расширять использование Rust, но когда компания за год растёт с тридцати до тысячи человек, неизбежны частые реорганизации и смены команд. Новый директор, отвечавший за проект в то время, когда мы оценивали производительность, оказался им недоволен. Его самая большая претензия заключалась в том, что если сервис не нужно дополнительно поддерживать, то трём инженерам не останется работы!

Хоть это кажется потенциальной проблемой, но я увидел в этом возможность. Ещё несколько команд уже высказали свою заинтересованность в работе на Rust, и я считал, что их сценарии использования подходили для Rust: например, обработка событий для сбора аналитики или сервис уведомлений в реальном времени. Стоит также добавить, что двое из трёх разработчиков на Rust были очень опытными: раньше они работали в финтехе и с распределёнными системами. Поэтому мы предложили расширить использование Rust в компании. К сожалению, принимающий решения директор был непреклонен. Вскоре после начала обсуждений он сказал разработчикам на Rust, что им лучше начать учить Ruby/Node.js или начинать искать новую работу. На мой взгляд, это было огромной потерей, потому что вскоре они уволились, но поделать мы ничего не могли.

Откровенно говоря, я понимаю часть аргументов, лежавших в основе этого решения; например, в то время (где-то 2020 год) Rust был относительно нишевым языком, поэтому гораздо больше разработчиков знали Node.js и Ruby, чем Rust. Но с запретом на Rust тоже были связаны риски; например, что делать с единственным сервисом на Rust? Целые команды хотели попробовать Rust для своих сервисов и у нас уже было три разработчика, готовых помочь; я знал, каким бы был мой ответ, но, к сожалению, решения принимал не я.

Самое забавное в этой истории заключалось в том, что если бы сервис на Rust не оказался настолько успешным, то компания, вероятно, сохранила бы команду разработчиков на Rust. Допустим, если бы им понадобились месяцы на оптимизацию сервиса (а так и происходило со многими другими сервисами компании), то никто и слова бы ни сказал. Так обстоят дела в бизнесе. А в дальнейшем нам понадобились новые фичи, но Rust-команда так до них и не добралась (и это, кстати, остаётся проблемой в компании — нам нужна фича X, проще всего её было бы реализовать в сервисе на Rust, но у сервиса на Rust нет команды... Что ж, давайте сделаем на коленке неоптимальное решение, на которое понадобится гораздо больше времени и которое будет гораздо более сложным, чем внесение изменений в сервис).

А теперь небольшой бонус: что же случилось потом? Вскоре после решения о запрете Rust для разработки всего нового было принято решение переписать Rust-сервис на Node.js, чтобы его могли поддерживать наши команды. Была предпринята только одна провалившаяся попытка. Да, надо быть честным, подобный сервис можно написать на Node.js. Однако проблема в том, что один процесс Node.js не способен вынести подобную нагрузку из-за своих характеристик среды выполнения (однопоточность, ограниченные возможности передачи задач воркерам сервиса — всего этого явно недостаточно). Кроме того, при этом пришлось бы менять и архитектуру. Больше никакого единственного процесса на единственном сервере, и вместо него множество процессов, синхронизируемых через какой-нибудь сервис, базу данных или очередь. Насколько помню, человек, занимавшийся переписыванием, решил использовать внешний сервис Ably, чтобы не обрабатывать подключения WebSocket вручную, но, к сожалению, спустя примерно два месяца выяснилось, что решение недостаточно производительно. Повторюсь, я знаю, что это реализуемо, но из-за необходимости более комплексной архитектуры сделать это не так просто, как на Rust. Поэтому сервис на Rust просто работал в продакшене, и о нём вспоминали обычно только тогда, когда нужно было расширить его возможности, но без поддерживающей его команды компания или отказывалась от новых фич, или пыталась обойти тот факт, что сервис на Rust никто не поддерживает.

Комментарии (30)

Dhwtj
01.07.2025 11:30
#28512384
Сын еврея-юриста недавно закончил университет, тоже стал юристом, получил практику и выиграл свой самый первый судебный процесс. Прибегает весь взволнованный домой:

- Папа, папа, я сегодня выиграл свой первый суд! И знаешь, папа, это то самое дело которое ты вел все прошлые 10 лет и не мог выиграть, а я его выиграл за один день!

Отец на это очень раздраженно отвечает:

- Вы только посмотрите на этого идиота! Он сегодня за один день закончил дело которое кормило нашу семью почти 10 лет! Кто нас теперь кормить-то будет?

anonymous
01.07.2025 11:30
#28513496

rsashka
01.07.2025 11:30
#28512508
Хорошая сказка. Вот только что-то мне подсказывает, что дело было совсем не в том, что "Его самая большая претензия заключалась в том, что если сервис не нужно дополнительно поддерживать, то трём инженерам не останется работы!", а из-за того, что нужно было нанимать еще трех новых человек, тогда как используя существующий стек технологий все можно было сделать уже имеющимися силами.

Директор посчитал бюджет и принял итоговое решение и конкретный язык программирования или framework тут не причем.
1. severgun
  01.07.2025 11:30
  #28515114
  Плюс 3 опытных rust dev точно дороже 3х JS
1. hochbar
  01.07.2025 11:30
  #28519484
  Так тех старых ставших ненужными девов можно уволить (ну или потребовать переобучиться на раст)

Lewigh
01.07.2025 11:30
#28512628
Мне кажется если заменить Rust на Go/Java/C#? в данной ситуации, то судя по описанию результат был бы таким же.
1. Dhwtj
  01.07.2025 11:30
  #28512808
  Там и про go написано
1. Siemargl
  01.07.2025 11:30
  #28513992
  нет
  
  если внимательно смотреть, там бы ли люди, пишущие на эликсире. го или яву они бы осилили

kolya7k
01.07.2025 11:30
#28514216
Странно, на такое 2 недели… На C++ давно уже пишем гораздо более сложные вещи за день примерно. Без проблем с производительностью, WS/бинарный протокол/rest. Без явного выделения памяти, RAII и так далее. Поддерживать может любой программист, кто понимает C-подобный синтаксис, даже полный даун.
1. sdramare
  01.07.2025 11:30
  #28515656
  Так напишите статью как вы сделали гораздо более сложную вещь с нуля до продакшена за один день, всем будет интересно почитать.
  1. hochbar
    01.07.2025 11:30
    #28519488
    +1
1. Siemargl
  01.07.2025 11:30
  #28516370
  Нормальные сроки, для быстрого изучения новой технологии.
  
  А ещё один срач cxx vs rust, зачем?

xsepsisx
01.07.2025 11:30
#28514694
Что мешало немного адаптировать код на Rust, сделав модуль под NAPI? Дальше уже расширять логику на жс. И овцы, как говорится, были целы, и волки...
1. n0isy
  01.07.2025 11:30
  #28517352
  Не выйдет: узкое место - прием и обработка соединений на одном ядре.

DX28
01.07.2025 11:30
#28515352
В компании где работаю аналогичная ситуация. Десятки разработчиков на python + vue. Есть сложные высоконагруженные процессы, которые если переписать на rust даже сэкономят компании сотни тыс рублей в Яндекс облаке. Но на предложение переписать руководитель говорит - "А где мы потом будем искать разработчиков?"
1. Nansch
  01.07.2025 11:30
  #28515456
  Что за тупизна от руководства? Если переписать функционал на раст, то кто перепишет, тот и разработчик! Зачем их искать, когда они уже здесь?!
  1. lear
    01.07.2025 11:30
    #28518094
    Как я понимаю, проблема в том, что раст разработчиков не много, соответственно потеря одного разработчика раста гораздо критичнее, чем потеря го/ноды/руби разраба.
    
    EvilBlueBeaver
    01.07.2025 11:30
    #28518130
    CTO тоже не слишком много на рынке. Можем к ним тот же принцип применить и начать увольнять заранее?
    
    AbitLogic
    01.07.2025 11:30
    #28518630
    Берешь любого C/C++ выше среднего и через пару месяцев он Rust разработчик, причем настолько, что смотреть на код на С++ будет с недоумением, я проверял на практике
    
    hochbar
    01.07.2025 11:30
    #28519508
    С первым согласен, со вторым нет
    
    hochbar
    01.07.2025 11:30
    #28519504
    Не понял. Если есть человек/человеки переписавшие на раст зачем ПОТОМ еще искать раст разрабов?
  1. Zempik
    01.07.2025 11:30
    #28518244
    Представьте, что вы руководитель проекта, несете за него ответственность, вам выделяют утвержденный бюджет. В проекте сформирована команда разработчиков, она вас устраивает, в команде выстроены связи и есть стабильность.
    В какой-то момент вам предлагают переписать работающий сервис на другой язык программирования, взять на себя риск, обновить команду и утвердить или простои сервиса, или доп бюджет на обновление (в какой-то момент нужно будет в штате иметь разработчиков нового языка и разработчиков старого языка для поддержки). Тут у вас, как руководителя, возникает вопрос: а потенциальное изменение затрат соответствует риску?
    Наверное, поэтому руководители и отказываются от обновления.
    
    EvilBlueBeaver
    01.07.2025 11:30
    #28518326
    Вы пост читали? Там буквально как раз про то, что есть сервис работающий, причем работающий так, как никому не снилось. У них есть команда, которая показала свою эффективность и способность решать проблемы. Но это не помешало эффективным менеджерам пропихивать его переписывание, простои и вот это все под соусом "а вдруг у нас завтра разрабы кончатся, да и эти что-то сидят слишком умные и работает у них все, тьфу".
    Эффективным менеджерам в такой парадигме сложно, они не могут показывать всю глубину наших глубин и то как они превозмогают обстоятельства и решают несуществующие проблемы.
    
    Ratenti
    01.07.2025 11:30
    #28519448
    Так никто не любит когда люди получают зарплату, а ничего не делают
    
    EvilBlueBeaver
    01.07.2025 11:30
    #28519462
    Тут соглашусь, я тоже считаю, что надо всех этих эффективных менеджеров повыгонять XD
1. muon
  01.07.2025 11:30
  #28515558
  сэкономят компании сотни тыс рублей в Яндекс облаке
  
  Которые, может быть, окупят содержание одного растовика

muturgan
01.07.2025 11:30
#28515362
Async future блокировало среду выполнения на несколько секунд. Что за бред...

Panzerschrek
01.07.2025 11:30
#28515882
Надо было просто всех разработчиков компании переучить с JS на Rust, чтобы было кому тот сервис поддерживать. Заодно бы они переписали другие компоненты на Rust. Ну а потом бы всех уволили, ибо всё работало бы без нареканий и с минимальным потреблением ресурсов.
1. bogolt
  01.07.2025 11:30
  #28516534
  А может быть даже с отрицательным потреблением!

APh
01.07.2025 11:30
#28518150
Жуткий текст!