Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать / forpes.ru

Главная
Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать +12

31.07.2025 16:49

kmoseenk 0 2000 Источник

Личный гид по навыкам, инструментам и мышлению, стоящим за этой должностью

Data Science не умирает, но быстро эволюционирует.

По прогнозам, число вакансий, связанных с искусственным интеллектом, будет расти примерно на 40 % в год, что приведёт к созданию более миллиона новых рабочих мест к 2027 году.

В этой статье я расскажу о своём переходе из Data Science в AI Engineering, а также дам несколько практических советов тем, кто хочет совершить такой переход или просто узнать больше об этой области.

Мой путь был весьма интересным и полным открытий. Если вкратце:

Я получила образование в области физики и астрофизики (бакалавриат и магистратура), после чего перешла в Data Science;
Прошла две стажировки за рубежом в области Data Science и машинного обучения;
Получила первую постоянную работу как Data Scientist в крупнейшей энергетической компании своей страны;
Перешла в AI Engineering менее года назад (по состоянию на май 2025 года) и сейчас работаю в крупной логистической компании.

Если вы работаете в Data Science, как часто вы задумываетесь о том, как ваш код попадает в продакшн? Если ваш ответ — «почти никогда», AI Engineering может вас удивить.

Интересно, как опыт работы в Data Science может повлиять на переход в AI Engineering? Или с какими неожиданными трудностями я столкнулась?

Как выглядит день AI-инженера по сравнению с рабочими буднями Data Scientist’а?

Какие инструменты и платформы я использую сейчас, а какие использовала раньше?

Читайте дальше — расскажу обо всём!

Сходства и различия между Data Science и AI Engineering

AI Engineering — очень широкое понятие, и оно может включать множество задач из области Data Science. На самом деле, этот термин часто используется как зонтичный.

Когда я работала Data Scientist’ом, однажды я потратила три недели на оффлайн-тюнинг модели. Теперь у меня, как у AI-инженера, есть всего три дня, чтобы задеплоить модель в продакшн. Приоритеты поменялись кардинально!

Но означает ли это, что роли полностью различаются и не пересекаются?

А что, если вы захотите податься на позицию AI Engineer? Можно ли использовать навыки из Data Science в этой области?

Сначала я поделюсь с вами результатами небольшого исследования, которое провела, а затем — своим личным опытом и наблюдениями.

Согласно моим наблюдениям, за последние три года обязанности обеих ролей стали шире и начали пересекаться.

Современные описания вакансий Data Scientist всё чаще включают не только анализ и тюнинг моделей. В них появляются требования по развёртыванию моделей, построению data pipeline’ов и применению практик Machine Learning Operations (MLOps).

И именно этим я и занимаюсь, будучи AI-инженером! (Подробнее об этом — в следующих разделах).

Например, в одной из недавних вакансий на позицию Data Scientist напрямую требовался «опыт работы с корпоративными DataOps, DevSecOps и MLOps».

Ещё несколько лет назад Data Scientist’ы в основном сосредотачивались на исследованиях и построении моделей. Теперь же от них всё чаще ожидают, что они будут «full stack» — другими словами, разбираться почти во всём.

Это означает, что от Data Scientist’ов теперь ожидают как минимум базовых знаний в области облачных платформ, разработки и даже DevOps — чтобы их модели могли полноценно поддерживать продукт.

Согласно одному из опросов, 69 % вакансий для Data Scientist’ов требуют навыков машинного обучения, и примерно 19 % — навыков NLP (год назад этот показатель был всего 5 %).

Навыки работы с облаками (AWS, Azure) и с фреймворками для глубинного обучения (TensorFlow/PyTorch) теперь встречаются в 10–15 % вакансий для Data Scientist’ов, что указывает на растущее пересечение с AI Engineering.

Очевидно, что происходит сближение скиллсетов Data Scientist’ов и AI-инженеров. Обе роли активно используют программирование (особенно Python) и работу с данными (SQL), и обе требуют понимания алгоритмов машинного обучения.

Согласно анализу вакансий за 2024 год, Python упоминается примерно в 56–57 % объявлений как для Data Scientist’ов, так и для ML-инженеров.

Навыки работы с облаком и MLOps, похоже, становятся общей базой: от AI-инженеров ожидается, что они будут деплоить модели в AWS/Azure, и «облачные навыки» становятся необходимыми и для будущих Data Scientist’ов.

В таблице ниже приведены ключевые навыки и частота их появления в вакансиях для каждой из ролей — по данным источников, указанных в списке литературы.

Навыки/Инструменты	Объявления для Data Scientist	Объявления для ML/AI Engineer
Программирование на Python	57%	56%
SQL/Запросы к базе данных	30%	26%
Машинное обучение (общие)	69%	— Указано в роли
Фреймворки для глубокого обучения	11% (TensorFlow/PyTorch)	9% (если включать навыки NLP)
Облачные платформы (AWS/Azure)	29% (быстро растет)	Обязательные (обычно требуются)
MLOps/DevOps инструменты	Всё чаще требуется	Основная ответственность (CI/CD, контейнеры и т.д.)

На первый взгляд различия очевидны. Роль Data Scientist’а по-прежнему сосредоточена на традиционной работе с данными: Python, SQL, классическое машинное обучение и извлечение инсайтов из структурированных данных.

Инженеры по машинному обучению и AI-инженеры находятся гораздо ближе к миру разработки ПО. Их задача — превратить экспериментальные модели в надёжные, масштабируемые и постоянно готовые к развёртыванию решения.

Однако наблюдается чёткое и стратегически важное сближение.

Мы видим, что в вакансиях Data Scientist’ов всё чаще упоминаются облачные платформы, а знание инструментов MLOps требуют уже не только на инженерных ролях. Навыки сливаются!

Формируется тенденция, при которой Data Scientist’ов постепенно подталкивают ближе к инженерному стеку.

Мой личный опыт и взгляд

Что я делала как Data Scientist и чем я занимаюсь сейчас как AI-инженер?

Для контекста: я работала Data Scientist’ом в крупной энергетической компании. Мои обязанности включали разработку моделей прогнозирования временных рядов (с использованием XGBoost, LightGBM, SARIMAX и RNN), генерацию и валидацию синтетических данных (через TimeGAN, статистические распределения и методы импутации), проведение глубокого статистического анализа и применение моделей машинного обучения для работы с пропущенными значениями в больших объёмах данных.

Некоторые инструменты и платформы, которые я использовала в роли Data Scientist: VSCode, Jupyter, MLflow, Flask, FastAPI, а также библиотеки на Python — TensorFlow, scikit-learn, pandas, NumPy, Matplotlib, Seaborn, ydata-synthetic, statsmodels и другие.

Во время одной из предыдущих стажировок я работала с PyTorch, Transformers, Weights & Biases, Git и различными библиотеками Python — для дистилляции данных, обучения с учителем, прикладной статистики, компьютерного зрения, обработки естественного языка, object detection, аугментации данных и глубокого обучения.

Инструменты и платформы, с которыми я работаю сейчас

Моим основным языком по-прежнему остаётся Python. Я всё так же использую Jupyter notebooks для прототипирования, но большую часть времени пишу код на Python в VSCode (скрипты, API, тесты и т.д.).

Моя работа тесно связана с Microsoft Azure, особенно с Azure Machine Learning, поскольку моя команда использует его для управления, обучения, развёртывания и мониторинга наших моделей машинного обучения.

Весь жизненный цикл MLOps — от разработки до развёртывания — у нас реализуется в Azure. Мы также используем MLflow для отслеживания экспериментов, сравнения различных моделей и их параметров, а также для регистрации всех версий моделей.

Одним из главных изменений для меня при переходе из Data Science в AI Engineering стало регулярное использование инструментов CI/CD, особенно GitHub Actions. Это, кстати, была одна из первых задач на новой работе.

GitHub Actions помогают создавать автоматизированные пайплайны, которые тестируют и разворачивают ML-модели, чтобы их можно было интегрировать в другие пайплайны.

Помимо машинного обучения, я также разрабатываю и разворачиваю backend-компоненты. Для этого я работаю с REST API, используя FastAPI и Azure Functions — они позволяют отдавать предсказания модели и подключать их к фронтенд-приложениям или внешним сервисам.

Я начала работать с платформой Snowflake, чтобы исследовать и преобразовывать структурированные датасеты с помощью SQL.

Для управления облачной инфраструктурой как кодом я использую Terraform.

Среди других инструментов, с которыми я работаю: Git, Bash и среда Linux. Они важны для совместной работы, написания скриптов, автоматизации, устранения неполадок и управления развёртыванием.

Примеры задач, которые я выполняла как AI-инженер

Сейчас я работаю AI-инженером в крупной логистической компании.

Первая задача, которую мне поручили, заключалась в улучшении и оптимизации CI/CD-пайплайнов для моделей машинного обучения с использованием GitHub Actions и Azure Machine Learning.

Что это означает на практике, спросите вы?

Моя компания хотела создать шаблон MLOps, который можно было бы повторно использовать в новых проектах, не начиная каждый раз с нуля. Этот шаблон — как стартовый набор. Он находится в репозитории на GitHub и содержит всё необходимое, чтобы перейти от прототипа в ноутбуке к рабочему решению в продакшене.

Внутри этого репозитория есть Makefile (скрипт, позволяющий запускать задачи вроде установки зависимостей или тестов одной командой), CI-конфигурация, написанная на YAML (файл, в котором чётко описано, что должно происходить при каждом пуше кода — например, запуск тестов и оценка моделей), а также юнит-тесты как для Python-скриптов, так и для конфигурационных файлов (чтобы убедиться, что всё работает как надо и ничего не сломалось незаметно для нас).

Юнит-тесты на самом деле являются неотъемлемой частью AI Engineering. Они не входят в число моих любимых задач… но критически важны для того, чтобы всё не сломалось, когда модель попадёт в реальный мир.

Представьте: вы потратили несколько дней на обучение модели, а затем из-за крошечной ошибки в скрипте предобработки всё ломается в продакшене. Юнит-тесты позволяют выявить такие «тихие» сбои на раннем этапе!

Означает ли это, что я полностью перестала выполнять задачи, связанные Data Science? Вовсе нет!

На самом деле, одна из моих текущих задач — сопоставление времени отправления и прибытия, очистка данных маршрутов и интеграция результатов во фронтенд-приложение.

Я считаю это отличным примером того, как Data Science (EDA, сопоставление, очистка данных) сочетается с AI Engineering (интеграция, знание особенностей продакшена).

Хочу подчеркнуть, что обе роли — и Data Scientist, и AI Engineer — могут быть довольно широкими, и их обязанности сильно зависят от конкретной компании и даже от отрасли. Всё, чем я делюсь здесь, основано только на моём личном опыте и не обязательно отражает путь или ожидания каждого.

Форматы взаимодействия

Одна из вещей, которую я заметила — это то, что из-за пересечения обязанностей усилилось взаимодействие между членами команды. Всё чаще Data Scientist’ы работают бок о бок с DevOps и бэкенд-разработчиками, чтобы модели действительно запускались в продакшене.

Согласно одному исследованию, если команды не взаимодействуют эффективно, 87 % решений на основе машинного обучения не выходят за пределы лаборатории.

За последние годы компании осознали необходимость в таком взаимодействии. Именно поэтому и появились лучшие практики MLOps, чтобы преодолеть разрыв между Data Science и DevOps.

Основные трудности

Лукавить не буду — путь был непростым. Все слышали о синдроме самозванца, и я, безусловно, какое-то время от него страдала. Думаю, со временем он уходит, особенно когда начинаешь ощущать свою ценность в проектах.

Когда я только начала работать AI-инженером, самой большой трудностью было привыкнуть к новым инструментам и использовать их все вместе. Мне поручили важную задачу (разработка шаблона для MLOps), и я была единственным человеком, работающим над ней. Ответственность была высокой. Мне пришлось в срочном порядке разобраться с YAML, GitHub Actions и тем, как всё это интегрируется с Azure.

Поскольку меня сильно увлекал MLOps, в некоторых проектах я начала брать на себя роль системного архитектора. Мне нужно было продумать, как все элементы связаны между собой и как они будут взаимодействовать, а затем понятно объяснить это менеджерам.

Я точно не была сразу готова к таким обязанностям и ролям, но со временем стала чувствовать себя гораздо увереннее.

Советы по переходу из Data Science в AI Engineering

Я бы сказала, что первый шаг к тому, чтобы стать AI-инженером — это искренний интерес и любопытство к тому, как работает вся система AI в целом. Именно с этого начался мой путь.

Я задавалась вопросами:

Как модель попадёт к пользователю?
Какую пользу она принесёт?
Как устроены базы данных и как мы можем извлекать оттуда данные в продакшене?
Как убедиться, что модель будет работать через полгода?
Как сделать так, чтобы её качество в продакшене не отличалось от локального?

Потом я начала читать полезные статьи и посты, ещё до перехода в AI Engineering.

В сети полно полезного бесплатного контента. Параллельно я начала проходить онлайн-курсы, чтобы прокачать навыки.

Если вы уже работаете в Data Science, можете попросить менеджера дать вам возможность поучаствовать в продакшн-разработке в вашей команде или хотя бы приглашать вас на встречи с AI-инженерами. По моему опыту, менеджеры обычно поддерживают сотрудников, которые хотят развиваться.

Также можно самостоятельно изучить GitHub Actions, Docker, Azure или AWS. И разобраться в базовых метриках продакшена, таких как задержка, аптайм, мониторинг.

Это очень краткий роадмап — остальные практические советы я оставлю для следующей статьи.

Заключение

Моё мышление изменилось: почему AI-инженеры должны мыслить как разработчики

Чтобы перейти в AI Engineering, важно уметь видеть полную картину жизненного цикла ML: от идеи до продакшена — и убедиться, что модель действительно будет работать, приносить пользу и создавать ценность для бизнеса.

Что это значит?

Это значит учитывать на протяжении всего цикла разработки, как модель будет интегрирована в реальные системы: как она будет развёрнута, как её будут мониторить, масштабировать и поддерживать.

Это значит выйти за пределы ноутбуков и обучающей точности — и начать задавать себе вопросы вроде: где будет работать эта модель? Как безопасно её обновлять? Что будет, если через месяц изменится структура входных данных?

Если вы собираетесь войти в область AI или сделать внутри неё шаг вперёд, помните: не нужно знать абсолютно всё. Но важно понимать, как ваша работа вписывается в общую систему ML-процесса.

Чем сильнее вы будете понимать и чувствовать «другую сторону» пайплайна, тем больше пользы сможете принести.

Как вы могли заметить из этой статьи, переход в AI Engineering для меня — это работа со всем циклом ML: не только обучение модели, но и понимание, как всё работает в совокупности.

Раньше, в роли Data Scientist’а, я занималась классическими задачами: разведочным анализом данных, поиском аномалий, очисткой данных, разработкой и упаковкой моделей. Именно этому меня учили в университете.

В роли AI-инженера мои ежедневные задачи — это смесь обеих ролей. Я всё ещё исследую и чищу данные, но теперь думаю как разработчик, чтобы быть уверенной — модель не просто работает, а действительно живёт в продакшене и поддерживается со временем.

Одним из главных сдвигов в мышлении стало понимание, как писать код, готовый к продакшену, и развитие инженерного подхода: автоматизация установки, тестирования, развёртывания, мониторинга.

Это было увлекательное путешествие, и я собираюсь продолжать делиться своими открытиями дальше.

Надеюсь, статья была вам полезна.

Итак, AI Engineering требует не только теоретических знаний, но и умения эффективно внедрять модели в реальную инфраструктуру. В этом вам помогут программы, которые нацелены на практическое освоение ключевых инструментов и технологий:

DevOps практики и инструменты — курс, который научит вас работать с ключевыми практиками, такими как Infrastructure as Code, CI/CD и Observability, для автоматизации развертывания и управления решениями в продакшн-среде. На странице курса можно пройти вступительный тест и записаться на открытые уроки.
Инфраструктурная платформа на основе Kubernetes — курс, который предоставит необходимые навыки для создания, развертывания и эксплуатации масштабируемых решений на Kubernetes, включая работу с его экосистемой и нюансами эксплуатации. На странице курса также можно пройти вступительный тест и записаться на открытые уроки.

А тех, кому больше интересно подтянуть навыки в DS & ML, приглашаем заглянуть в каталог курсов — в нём найдёте программу под любой уровень и задачи.