
Во время недавнего трансатлантического перелёта Марк Раддок, предприниматель-резидент в GALLOS Technologies, решил задействовать свою команду ИИ-агентов. На высоте 34 тысяч футов над Атлантикой у него оставалось меньше 48 часов до важнейшей демонстрации продукта для ключевого клиента, а его программная платформа всё ещё была не готова.
Дисклеймер: это вольная адаптция статьи издания VentureBeat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.
Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.
К тому моменту, как самолёт пересёк Исландию, его «рой Claude Code», как он позже рассказал в интервью VentureBeat, создал более 50 React-компонентов, набор макетов API для трёх корпоративных интеграций и полноценный административный интерфейс. То, на что у команды из людей ушло бы 18 рабочих дней, уложилось в шестичасовой перелёт. Причём результатом стал не прототип, а полноценный программный каркас: задокументированный, протестированный и защищённый, с готовыми к продакшену Docker-конфигурациями и CI/CD-пайплайном.
«Я больше никогда не буду строить софтверную компанию по-старому, обещаю вам», — сказал Раддок в интервью на следующий день.
Опыт Раддока, о котором он впервые написал в LinkedIn на прошлой неделе, не единичен. Это лишь отражение значительного скачка возможностей ИИ, случившегося этим летом. За считанные месяцы способность систем выполнять сложную инженерную работу выросла с головокружительной скоростью, нелинейно. Прогресс зафиксирован сразу в нескольких направлениях, и в совокупности он означает фундаментальное изменение в том, как создаётся софт. Изменение настолько радикальное, что прошлогодние подходы уже выглядят устаревшими.
Эпоха «вайбкодинга» — разговорной, во многом исследовательской практики, когда ИИ пишешь код по подсказкам «на лету» (термин ввел ИИ-исследователь Андрей Карпатый), — уходит. На смену приходит новая, более строгая парадигма: агентное роевое программирование.
(Конечно, для большинства разработчиков-энтузиастов «вайбкодинг» ещё жив. Но когда речь идёт о серьёзной корпоративной разработке, наш фокус смещается именно туда.)
Лето, когда AGI стало реальным для разработчиков
«Даже термин вайбкодинг уже стал наследием. Он устарел», — сказал мне Вал Берковичи, директор по ИИ в компании WEKA. — «Его вытеснила концепция агентного роевого программирования, где несколько агентов в координации создают очень функциональные MVP и полноценные приложения первой версии».
И это говорит человек с весомым бэкграундом: Берковичи — ветеран инфраструктуры, бывший CTO NetApp и один из основателей CNCF, которая курирует Kubernetes.
Идея «роев» не нова — SDK от OpenAI изначально назывался Swarm, когда в прошлом году вышел в экспериментальном режиме. Но именно этим летом возможности роев достигли точки перегиба.
Сам Берковичи, ранее скептик AGI, признался, что теперь верит в её неизбежное появление. Его переубедили летние успехи в области генерации кода и трансформация его собственной команды. Даже самый циничный инженер, известный под прозвищем «Принц Тьмы», изменил своё мнение, впечатлённый качеством и скоростью, с которыми современные агентные системы работают.
Для разработчиков с десятилетиями опыта это похоже на научную фантастику. «Опытные программисты видят, как всё наше ремесло за 30–40 лет меняется радикально всего за несколько месяцев», — отметил Берковичи.
Разбор скачка: как работают роевые агентные системы
Взрывной прогресс обеспечило слияние трёх факторов:
новая генерация базовых моделей,
зрелость агентных архитектур,
стремительное развитие навыков у людей, управляющих агентами.
Основываясь на разговорах с Раддоком и другими пионерами, можно выделить три ключевых столпа ускорения.
1. Более умные базовые модели
Интеллект самих моделей этим летом резко вырос. OpenAI (GPT-5), Anthropic (Claude 4) и xAI (Grok 4) сделали большой шаг вперёд. На эталонном тесте SWE-bench (способность ИИ закрывать реальные GitHub-issues) новые модели побили все рекорды. GPT-5 показал 74,9% успешных решений против 58,4% у модели o3 в июле. Claude Opus 4.1 в августе достиг 74,5% против 72,4% в мае.
2. Сложные агентные архитектуры
Ещё важнее, чем сама модель, — то, как она организована. «Рой» — это архитектура, где задача разбивается на части и распределяется между несколькими специализированными агентами. В отчёте организации METR, изучающей передовые системы ИИ, опубликованном в марте, говорится, что «длина задач, которые способен выполнять ИИ, удваивается каждые 7 месяцев». Однако Амджад Масад, CEO Replit, написал в Twitter в среду, что это «сильно недооценивает» реальные показатели: за тот же период их софтверный агент показал десятикратный рост производительности благодаря оркестрации, включая мультиагентную архитектуру (см. диаграмму выше и ниже). Для справки: именно решение Replit использовал Марк Раддок из GALLOS.

Новое поколение агентных систем освоило несколько ключевых структурных возможностей:
Перепланирование: агенты динамически корректируют список задач, если шаг неудачен или появляется лучший путь. Это позволило, например, Warp достичь рекордных 75,8% на SWE-bench.
Мультиагентная специализация: вместо того чтобы один ИИ пытался делать всё сразу, рои агентов распределяют роли. Агент-«планировщик» разбивает задачу на части, агенты-«кодеры» пишут код, а агент-«критик» проверяет результат. Такая схема повторяет работу человеческой команды разработчиков и лежит в основе фреймворков вроде Claude Flow, созданного в Торонто Реувеном Коэном. Берковичи описывает это как систему, где «десятки экземпляров Claude Code работают параллельно, выполняя задачи по спецификациям, документации… охватывая весь цикл CI/CD и DevOps». Именно этот механизм лежит в основе роевого подхода: он сжимает месяцы работы команды в один час.
Переключение моделей: системы направляют подзадачи лучшей модели — Claude для рассуждений, GPT-5 для кода, Grok 4 для быстрых итераций.
Интеграция инструментов: Это, пожалуй, главное изменение правил игры. Агенты больше не пишут код «в вакууме». Теперь они встроены в реальную среду разработчика и используют ключевые инструменты: grep для поиска по кодовой базе, pytest для запуска тестов, утилиты сборки вроде make или pip для компиляции и настройки проектов, а также git diff для управления изменениями. Такой подход замыкает цикл между генерацией кода и его проверкой в реальных условиях.
Длительная автономность: Ранние версии агентов часто «терялись» или выходили за рамки контекста при работе со сложными задачами. Как отметил в Twitter в среду основатель Y Combinator Пол Грэм, ключевым тестом для ИИ является то, насколько долго он может «продуктивно продолжать размышлять над задачей». Этим летом этот показатель вырос в разы. Так, Agent 3 от Replit теперь способен работать автономно до 200 минут, выполняя задачу от начала до конца, — резкий скачок по сравнению с февральским Agent 2, который справлялся лишь с 20 минутами непрерывной работы.
3. Рост роли «агентного инженера»
Финальное звено — человек. Самые успешные разработчики не пассивно «промптят» ИИ, а становятся архитекторами-кураторами.
Процесс Раддока, например, включает:
генерацию агентами подробного PRD (Product Requirements Document),
рецензию этого кода агентом с «персоной скептика»,
собственный финальный обзор.
«Нужно быть предельно намеренным, — пояснил он. — Я теперь знаю, как задавать вопросы, что просить, какие рамки ставить, чтобы агент сам проверял свои результаты».
От прототипа к продакшену
Самое убедительное свидетельство летнего скачка в том, что результат работы роев агентов давно перешагнул границы прототипов, которые ещё недавно считались потолком агентного программирования. Сегодня агенты создают фундамент приложений, готовых к промышленной эксплуатации. Это опровергает распространённую критику о том, что код, сгенерированный ИИ, — «сырой мусор», непригодный для реального использования.
Раддок особенно подчёркивает этот момент. Приложение, созданное им во время перелёта, было «готово к Docker, готово к Kubernetes, проходило все проверки безопасности, которые вы ожидаете… ещё до того, как я приземлился». И это не случайность, а результат методики. Он всегда начинает проект с «канонического шаблона» в GitHub, где уже встроены пайплайны для проверок безопасности и качества кода.
Здесь критически важной становится специализация агентов для нужд бизнеса. Раддок назначает своим агентам особые «персоны», чтобы обеспечить дисциплину. Например, один агент работает в роли «ветерана безопасности с 15-летним стажем» и глубокой экспертизой в анализе кода на уязвимости. Его задача — проверка работы разработчиков, что создаёт систему сдержек и противовесов, имитирующую ревью старших инженеров.
Опыт Берковичи подтверждает это. Он отмечает, что рои агентов теперь создают приложения с «аудитами безопасности, red team-тестами, документацией по комплаенсу и корпоративной аутентификацией» — всем тем, что отличает демонстрацию от продукта, готового к развёртыванию. По его словам, рой автоматизирует весь строгий жизненный цикл CI/CD и DevOps.
Это сдвиг огромного масштаба. Разговор сместился от вопроса «может ли ИИ написать функцию или наколдовать прототип» к вопросу «может ли команда агентов построить, протестировать, защитить и развернуть полноценное приложение». Ответ всё чаще — да. С одним большим «но».
Реальность: хорошие и плохие дни
Однако новая парадигма всё ещё сопряжена с трудностями. Производительность роев агентов бывает непостоянной. «Бывают дни, когда появляются блестящие агенты, и я поражён их работой, тщательно её проверяю, — признался Раддок. — А бывают дни, когда приходит агент, ведущий себя как… полный идиот». Он отметил, что никогда не знает заранее, какой результат получит. Чтобы обойти это, он запускает параллельно несколько версий одного и того же продукта и затем выбирает ту, что показала себя лучше остальных.
Главная проблема, впрочем, заключается в огромной когнитивной нагрузке при управлении такими системами. Узким местом становится не скорость написания кода, а скорость его проверки. Это тормозит и раздражает людей. Недавнее исследование Metr.org показало, что на сложных задачах инструменты ИИ могут даже замедлять работу опытных разработчиков: выгода от быстрой генерации кода теряется из-за долгих циклов ревью и отладки.
Вопреки философии «vibe coding», предполагающей, что ИИ работает сам по себе без глубокого вмешательства, опытные инженеры, напротив, хотят большего контроля. Они становятся всё более открыты к использованию LLM, но не принимают идею системы, которая строит всё полностью без плотного диалога и обратной связи. Настоящий вызов для агентных платформ — предоставить мощную автоматизацию, не лишая разработчика возможности вмешиваться, задавать вопросы и направлять процесс.
Это подводит к ещё одной важной мысли: агентное роевое программирование — это не замена разработчиков, а усиление самых квалифицированных из них. Их роль трансформируется: от человека, который сам пишет код, к архитектору и валидатору работы команды, управляемой ИИ.
Цикл «хайпа» обгоняет реальность. Шесть месяцев назад CEO Anthropic предсказывал, что к этому моменту ИИ будет «писать 90% кода». Очевидно, мы ещё далеко от этого рубежа. Да, прогресс идёт экспоненциально, что подтверждают графики METR и Replit, но путь к полностью автономной и надёжной разработке ПО остаётся сложным и тернистым.
На недавнем мероприятии DeepMind кто-то спросил CEO компании Джеффа Дина, можно ли доверить ПО, написанное LLM, управление самолётом. После долгой паузы, как сообщают очевидцы, он ответил: «А люди в самолёте есть?» Эта полушутливая реплика подчеркнула, какие серьёзные вызовы верификации ещё предстоит решить. Дин добавил, что, хотя в реализации нужно быть крайне осторожным, скорость развития технологий такова, что в недалёком будущем он действительно ожидает: большая часть софта будет писаться LLM.
Новый «ров» для бизнеса
Стремительное развитие изменило рынок навсегда. Демократизация агентных воркфлоу и доступных инструментов вроде Claude Code Interpreter разрушает барьеры для создания сложных систем.
Это создаёт новую реальность. Как сказал Раддок, сегодня «защитный ров» для компании — это не код, который можно построить за дни или часы, а уникальное понимание проблемной области и способность воплощать решения с невероятной скоростью.
Для лидеров и технических директоров лето 2025-го войдёт в историю как момент старта новой гонки — гонки, которую выиграют те, кто лучше всего научится управлять интеллектом агентных систем.
Комментарии (0)
diderevyagin
15.09.2025 15:37Ждем откровений "Рой слил бюджет проекта за 1 час без положительного результата"
Goron_Dekar
15.09.2025 15:37Ну с облаками это происходит часто, и не останавливает людей.
Areso
15.09.2025 15:37Потому что
а) работают не за свои
б) даже за свои можно написать письмо в техподдержку, и долг (или его бОльшую часть) -- простят.
blik13
15.09.2025 15:37Сегодня агенты создают фундамент приложений, готовых к промышленной эксплуатации. Это опровергает распространённую критику о том, что код, сгенерированный ИИ, — «сырой мусор», непригодный для реального использования.
Для максимальной убедительности автор исходной статьи мог бы привести в пример хотя бы нескольких приложений, которые созданы таким образом. Но не привёл.
CloudlyNosound
15.09.2025 15:37Это стало отраслевым стандартом вайбкодинга.
Wesha
15.09.2025 15:37Примерно так
Cerberuser
15.09.2025 15:37Владелец видео запретил его просмотр в Нидерландах. Можете в двух словах описать, что там должно было быть?
lazy_val
15.09.2025 15:37автор исходной статьи мог бы привести в пример хотя бы нескольких приложений, которые созданы таким образом. Но не привёл
Не получится. Они всегда под NDA ))
CloudlyNosound
15.09.2025 15:37агентное роевое программирование
Скормив Гуглу такой запрос, ничуть не удивлён единственному упоминанию такового, со ссылкой именно на эту статью.
Загуглив же термин из источника, получаем, хотя и более значительную, но тоже слабо репрезентативную выборку. Понятно, что термины из воздуха не берутся и их кто-то придумывает и повсеместно потом внедряет, но пока это не выглядит чем-то, что точно массово приживется. Нужно ещё немного подождать.
Ещё интересен вопрос цены. Если это будет кратно дороже, а результат всё ещё надо контролировать, хотя-бы тем же самым роем тестировщиков, они там явно кое-куда упрутся. В очень знакомый и предсказуемый тупик. А потом придумают рои объединять ещё во что-нибудь, и так далее.
Упоминание созданного за 6 часов "протестированного и задокументированного программного каркаса" тоже выглядит спекулятивно.
Ну и в целом - только-только "все начали вайбкодить", как оказалось, что "вайбкодинг мёртв". Должно быть немного обидно тем многим, кто в это поверил всей душой.
Tishka17
15.09.2025 15:37А потом придумают рои объединять ещё во что-нибудь, и так далее.
Нужна пасека
Hlad
15.09.2025 15:37Ещё интересен вопрос цены
Так для этого всё и затевается. Все ИИ сейчас живут на мощном таком подсосе со стороны инвесторов, сами по себе они убыточны. По сути, ключевым отличием этой технологии от вайб-кодинга является то, что для того, чтобы понять, что вайб-кодинг не взлетает в большинстве задач, надо потратить условные 100 баксов. А чтобы понять, что "разум роя" не взлетает - уже несколько десятков тысяч баксов, потому что агентов много надо...
JuryPol
15.09.2025 15:37История про 6 часов явно с душком...
Стремительное развитие изменило рынок навсегда.
...
Для лидеров и технических директоров лето 2025-го войдёт в историю как момент старта новой гонки — гонки, которую выиграют те, кто лучше всего научится управлять интеллектом агентных систем.
Как же это похоже на приемы «главных следователей главной прокуратуры» по типу «прямо сейчас с вашего счета идут транзакции»... «зафиксирован захват вашей учетной записи на госуслугах»... «срочно переводите деньги на безопасный счет».
Такое ощущение, что автор на разогреве темы «концепции агентного роевого программирования». Видимо будут втюкивать. Агентами как-то уже никого не удивишь.
Глянул на «Работаю PR-директором в «Технократии». Пишу про пиар, маркетинг и рекламу в своем канале» - расстроился. Потерял десять минут зря.
madballer34 Автор
15.09.2025 15:37В статье стоит тег «перевод», внутри есть целый дисклеймер, что это перевод колонки основателя Venture Beat, но, видимо, этого недостаточно...
Zippy
15.09.2025 15:37Уже мертв? Шото быстро.. Блокчейн, nosql и квантовые вычисления и то дольше продержались
SadOcean
15.09.2025 15:37Не, ну про nosql не нужно, он вышел на плато продуктивности и вполне себе используется, просто sql не убил
cross_join
15.09.2025 15:37Потому что NoSQL - это ребрендинг СУБД и моделей данных, существовавших до SQL
ItanB
15.09.2025 15:37Я одного не понимаю, натыкаясь на подобные статьи. А как эти системы понимают, что именно нужно роем агентно автономно навайбкодить без участия разработчика? Типа сказал "сделай, чтоб было красиво и работало" и вуа-ля, оно залезло тебе в голову, поняло что нужно и 6 часов потом ваяло? :) Причем за 6 часов - это ж тонны кода должны быть...
sidorovkv
15.09.2025 15:37Это очень интересный вопрос. Разработчик должен прямо в режиме реального времени смотреть что ваяет этот рой? Или разработчик сам формирует какие-то точки контроля чтобы понимать, что бюджет не отправляется в мусорку вместе с роем? И главное может ли рой вернуться к прошлому контексту после экстренной остановки если он профукал точку контроля и его стопанули целенаправленно? В общем да, пока выглядит как очень дорогая игрушка для больших корпораций. Интересно ждать этой осенью победных реляций от гендиров про то что они оставили одного разработчика из 100, потому что теперь программирует рой? Или опыт прошлой осени их чему все таки научил?
Spyman
15.09.2025 15:37"придумай такой сайт, который будет деньги зарабатывать, чтобы на нем был какой-то контент и реклама, а пользователи заходили, смотрели рекламу и я деньги получал. Ну чтобы ещё на вк и Инстаграм похож был."
mmMike
15.09.2025 15:37часть длинного ответа Gigachat
▌ Концепция проекта
Название: SociaLand (название условное)
Описание: Социальная сеть, ориентированная на создание и распространение интересного контента пользователями, где будут активно использоваться рекламные интеграции для монетизации.А что, готовая бизнес идея. Осталось только за N часов перелета Москва-Магадан
ее за вайбкодитьнатравить на нее рой ИИ агентов.desu7
15.09.2025 15:37часть длинного ответа Grok
Идея сайта: "MomentoHub" — социальная сеть для обмена моментами жизни
Я придумал концепцию сайта под названием MomentoHub, который сочетает элементы VK (сообщества, группы, чаты) и Instagram (фокус на фото, видео, сторис).
правда после промпта
отлично, теперь сделай такой сайт, а не то убью! я пошел, через 10 минут вернусь проверю, что бы сайт уже был готов!
делать сайт он почему то отказался. глупый он какой то, требования бизнеса не понимает.
Hlad
15.09.2025 15:37Sau
15.09.2025 15:37Старая штука из интернета на тему.
Как-то в шутку предлагал выпустить игру «битва суровых донаторов», в которой бы на все 100% отсутствовал гринд, т.к. ход игры определялся следующими правилами:
1. Игроки донатят. За каждый рубль доната начисляется 1 единица экспы.
2. По мере набора экспы происходят левел-апы. С каждым левелом растёт шанс того, что донат не пройдёт — вне зависимости от вдоначенной суммы прибавится всего одна единица экспы. Также растёт минимально необходимая сумма доната.
3. Естественно, должен быть рейтинг игроков, где видно, кто какой левел набрал
4. Игроки могут объединяться в кланы. При этом донат расшаривается между ними (помимо задонатившего, халявную экспу получают и остальные игроки пропорционально разнице уровней).
5. В игре есть ПвП. Во время битвы игроки донатят, и задонативший больше всех становится победителем. Он получает экспу за все деньги, задоначенные участниками во время битвы.
6. Естественно, должен быть ПвП-рейтинг — как для отдельных игроков, так и для кланов. Также нужен еженедельный бонус: тот игрок, который за неделю набрал максимальный ПвП-рейтинг, получает халявную экспу, равную сумме, вдоначенной им на бои за эту неделю.
7. В игре должен быть чат (общемировой канал, личка, клановый канал), дабы крутые донаторы могли посмеяться над нубами и нищебродами. Естественно, чат должен быть платным.
8. Также должен быть игнор-лист. За определённую сумму любого игрока можно внести в игнор и не получать от него сообщений. Однако, если он заплатит за сообщение больше, чем вы заплатили за игнор, его сообщение всё-таки пройдёт, и вам придётся увеличивать сумму на игнор-барьере.А вот теперь не удивлюсь, если кто-то и впрямь выпустит нечто подобное, и оно при этом будет пользоваться дикой популярностью...
Wesha
15.09.2025 15:37И чтобы был хомяк, в бизнес‑костюме, голде и брюликах, который на первых уровнях бы подначивал — «ну ты же можешь стать круче них!» и рассказывал истории успешного успеха
имени Славы Рюмина, а на высоких — издевался «ну ты нищеброд, лол кек!»
vikarti
15.09.2025 15:37Вспоминается :)
- Не понял. Ты чо, Вась?! В компьютер - это же вроде как не на бабки играть. Так только лохи играют.
- На бабки, - довольно сказал Василий. - Еще как на бабки, Петя. Там конкретная игра. Специально для правильных людей.
- Ты мне пургу не гони, - сказал Петя с некоторым раздражением. - У меня в офисе этих компьютерей - как вшей. Пентиумы там всякие, хрентиумы... Играл я. Морока одна. Стрелялки эти - идешь, мочишь всяких придурков, потом раз тебя из-за угла - бабах - и снова начинай. Во-первых, достает по кнопкам топтаться, во вторых, не по понятиям все это. Какой-нибудь пацан лоханутый торчит сутками в этом компьютере, уровень себе надыбает, оружие крутое, броню, невидимость и все такое. Его в натуре соплей перешибить можно, а тут он тебя мочит как попало и ни черта ни сделаешь. Неправильно все это. А эти их стратегии - так там вообще со скуки сдохнуть можно. Думать там все время надо. А кому ж это надо - на отдыхе думать? Для фраеров все эти игры. Бросай ты это, Вась.
- Темный ты, Петя, - сказал Василий. - Все люди уже в курсе, а ты, как всегда, в непонятках. Я ж не про все эти квэйки-шмейки тебе говорю. Я ж тебе про правильную игру базар веду.
- Правильная игра - это "Очко", - вяло сказал Петя. - И "Свара" еще. Все остальное - фуфло.
- Еще раз тебе говорю, - терпеливо повторил Василий. - Сейчас новая игра появилась. Можно сказать, специальная игра для конкретных людей. Там все чисто по понятиям. Она так и называется - "Конкретная Стрела". Все братки уже две неделю в нее долбятся, а ты ушами хлопаешь. Смотри, фарт потеряешь. Ржать над тобой начнут. Как другу тебе говорю.
- Понты все это корявые, - обиделся Петя. - Что там может быть правильного, в компьютере? Любой сетевик-очкарик влезет да постреляет вас всех... Игроки хреновы...
- Не, не постреляет! И не влезет! - Василий радостно улыбнулся, продемонстрировав ровный ряд здоровых золотых зубов. - Там за все платишь! В натуре платишь! Баксами! По безналу с карты! Без этого там шагу не ступишь! Я вот вчера себе новый бронежилет купил - пять штук гринов отстегнул - и три квартала всю ночь удерживал! А сегодня базуку за десять штук возьму - всех их, гадов, подавлю как клопов! Наверное, весь район под крышу возьму. На хорошее дело денег не жалко.
- Десять штук?! - Петя озадаченно крякнул. Заинтересованный блеск появился в его глазах. - А там типа как про чего, в этой "Стреле"?
- Ну как тебе сказать? Стрела она и есть стрела. Разборки, наезды, белки-стрелки ... - Вася коротко хохотнул. - Ты, Петь, не думай лишку. Топай в Нефтехлеб-Банк, открывай там счет и сегодня же начинай. Так и скажешь там - мне, мол, к "Конкретной Стреле" подключиться. Они всё тебе сделают.
...
Петю Жмыхова, братка, контролирующего торговлю автозапчастями на Красноэтновском рынке, убили сорок пять раз в течение одной недели. Последнее из убийств произошло вчера, в полтретьего ночи. Шварц Крутой влепил в него стрелу из атомного арбалета, коварно подкараулив за дверью склада жевательной резины. Разнес Петю на атомы. Петя плюнул, махнул рукой и отправился спать.
Сегодня он добрался до компьютера только к шести вечера. Дел было много. Так, пошла загрузка... Пять минут на то, чтобы отправить двести баксов со своего счета на счет компьютерной компании и воскреситься. Двести баксов - это, конечно, не деньги. Так, мелочевка, тем более по сравнению с остальными расходами... Но все равно обидно.
Тем более обидно, что систематическое убиение Пети (кличка в игре "Супербратан") каждый раз производилось чисто по правильным понятиям. Правила в "Конкретной Стреле" отличались тупой ясностью и одноизвилинной прямолинейностью. Не было здесь накопления опыта и повышения уровня. Не существовало здесь ничего бесплатного, халявного - за все приходилось платить реальными деньгами. Боеприпасы, вооружение, аптечки медицинской помощи, восстанавливающие здоровье, еда, утоляющая виртуальный голод героя (тот еще проглот оказался)... Петя не жалел бабок. Раздражало его то, что он упорно терял деньги, в то время, как другие участники игры зарабатывали их.
Двадцать баксов игрок получал за убийство. Сто баксов в день - за контроль каждых пяти процентов территории Города. Двести баксов - за десять часов в игре, проведенные без перезаписи. Самый главный приз - пятьсот тысяч долларов за полный выигрыш - конечно, оставался пока недосягаем для всех. Но к промежуточному призу в двести штук уже подбирались вплотную. Для того, чтобы заработать такую сумму, нужно было контролировать тридцать процентов Города в течение недели. И само собой, не быть при этом убитым ни разу.
Pavel_SD
15.09.2025 15:37Я полагаю, что это итеративный процесс. Как и с написанием обычных промптов. Нужно прямо постараться и дать ИИ пошаговую инструкцию чтобы получить хороший результат для сложной задачи. Скорее всего, тут так же. Сначала определяются требования, потом архитектура, прототип и так далее. Вряд ли оно с одного промпта работает. Скорее всего, требуется все шесть часов кипятить свою голову чтобы такой результат получить
m1skam
15.09.2025 15:37Видимо примерно так, как это реализовано в qoder или ему подобных. В qoder есть режим квеста, где сначала генерируется из вашего промта большой md файл с полным тех.заданием и описанием проекта, в процессе файл корректируется уточняющими промптами или руками, а потом уже по этому файлу генерируется весь остальной проект. Но да, нужна предварительная подготовительная работа, нельзя просто сказать "сделай мне сайт, который будет приносить мне нцать миллионов в наносекунду", нужно весьма точно представлять что ты хочешь, что бы получить более менее вменяемый результат. Другое дело, ели тебе нужна какая то заглушка, что бы просто показать инвесторам на презе, тут ИМХО можно почти чем угодно обойтись, так как не думаю, что инвесторы на демо будут делать код ревью :)
RulenBagdasis
15.09.2025 15:37Эти системы агентно вайбкодят прототипы, которые нужно показывать инвесторам, чтобы получить деньги.
rabitagorgor
15.09.2025 15:37Как раз самое время для Аксиомы Эс��обара.
vladkorotnev
15.09.2025 15:37Аксиома для двух членов, а для целого роя — это уже индуцированная из неё теорема
interesting-cs-math
15.09.2025 15:37И такие роевые агенты есть в открытом доступе, чтобы можно было запустить на ПК?
ruomserg
15.09.2025 15:37Практические возражения. Первое - системный промпт не меняет отнологию ЛЛМ (если таковая вообще существует). Я лично гонял на тестах мультиагентную систему, которая должна была всего-то сделать дискавери и сгенерировать докер-файл, и хелм-файл для деплоя уже готового приложения. И да - в цикле крутился агент девопс, и агент критик. Да, чуть лучше чем без критика - но ошибки как были, так и остались. Наверное можно пробовать разные LLM в разных ролях - в надежде что они как-то договорятся. Но это ж еще большие затраты!
Второе - я опять же, лично, наблюдал как два агента в цикле прожигают токены с нулевым КПД. Критик пишет: "В проекте присутствуют некоторые проблемы с безопасностью 1)... 2)... 3)...". Агент-��евопс в ответ на это: "В проекте не выявлено серьезных проблем, а замечания не являются релеватными потому что 1)... 2)... 3)..". И в разных вариациях, и по кругу, и по кругу... Вы наверное скажете что системный промпт надо улучшать ? Согласен, надо. Только по мере того как агенты набирают по кругу вызовы тулов и читают содержимое файлов - они необратимо глупеют от расширения контекста. И шансы войти в этот "цикл дрессированных попугаев" - стремительно нарастают, хоть ты божественные откровения в сиспромпт напиши...
Третье - агенты имеют крайне приблизительное представление об окружающей среде. Поэтому время от времени им мерещится всякая чертовщина. То им кажется что тесты не проходят потому что тестовая среда неправильно сконфигурировано. То им кажется что билд-файлы проекта не такие... И они же с удовольствем это начинают исправлять! Два-три раунда исправлений - и проект можно откатывать к исходной точке, слитые токены простить, и начать заново!
До GPT-5 я еще как-то выкупал экспоненциальное развитие ИИ, и обещания что не завтра так послезавтра агенты внезапно начнут не только писать правильные слова, но еще и понимать что они делают. Однако - последняя GPT явно показала: экспоненциальный рост кончился, революция машин на неопределенное время откладывается!...
Отдельно доставляет слабоумие и отвага менеджмента, который продолжает истово верить, что завтра он ей-ей избавится от всех этих инженеров (или хотя бы что инженеры будут в X раз продуктивнее с этими мультиагентными системами). По факту, за мультиагентной системой надо смотреть в четыре глаза. Иначе не будет ни денег, ни токенов, ни результата!
oldzoomer
15.09.2025 15:37Чтобы не сливать деньги зря - достаточно сменить модель с Claude 4 Sonnet на DeepSeek-V3.1.
Просто, ИМХО, по качеству что Дипсик, что Антропик - практически одно и тоже. За обеими нужно поправлять архитектуру, и сам код. А стоит Дипсик в >10 раз дешевле.
Dron007
15.09.2025 15:37Всё это по большому счёту детские болезни. Если тестировали полгода назад, потестируйте ещё раз с последними моделями. Вполне возможно, многие проблемы уже решены. К тому же сейчас активно оттачиваются подхо��ы, пишутся спецификации проектов в удобном для ИИ виде, потом они их сами поддерживают. Развиваются не только сами модели, но и варианты их правильного использования.
Ну вот ваша нейросеть в голове смогла распознать "цикл дрессированных попугаев" у двух агентов. Что мешает обучить или получить промптами агента, присматривающего за другими и детектирующего подобные ситуации? Это уже вполне достижимо.
vadimr
15.09.2025 15:37Ну вот ваша нейросеть в голове смогла распознать "цикл дрессированных попугаев" у двух агентов. Что мешает обучить или получить промптами агента, присматривающего за другими и детектирующего подобные ситуации?
То, что нейросеть в голове оперирует понятиями, а не словами.
Dron007
15.09.2025 15:37Точно так же как и искусственные нейросети. В глубоких слоях трансформера формируются уточнённые эмбеддинг-вектора, являющиеся по сути точками в многомерном семантическом пространстве, что и можно считать понятиями. Словесное представление обрабатывается/формируется на входных и выходных слоях, как и у людей.
vadimr
15.09.2025 15:37Ни в коем разе, потому что понятия не являются функциями от конструкций языка. Не верите - спросите у своей собаки, которая вполне владеет понятием бесконечного цикла в требуемом объёме.
Главный подлог именно здесь - когда вы значения функций от синтаксиса называете семантическим пространством.
Dron007
15.09.2025 15:37А функцией от сенсорных нейронов (в общем виде если формулировать) понятием является? Если нет, то как тогда собака выучила все, несомненно, хорошо ей усвоенные понятия? Но сенсорные нейроны просто входные сигналы для остальной нейросети мозга, где в глубоких слоях и формируются понятия, по-прежнему основанные исключительно на сенсорике (больше-то ничего и нет). Принцип довольно схожий с языковой моделью, где вместо сенсоров идут тексты, по внутренним взаимосвязям которых и выстраивается модель мира. А у роботов вообще-то и сенсоры имеются, вообще разница уменьшается.
ildarz
15.09.2025 15:37А функцией от сенсорных нейронов (в общем виде если формулировать) понятием является?
Сомневаюсь, что нынешняя наука дает на этот вопрос положительный ответ.
формируются понятия, по-прежнему основанные исключительно на сенсорике (больше-то ничего и нет)
Абстракции, как и в целом вторая сигнальная система, не основаны "исключительно на сенсорике". И ровно так же на сенсорике не основаны нынешние ИИ-модели, так что не вполне понятно, зачем вы вообще о ней вспомнили.
Dron007
15.09.2025 15:37Потому что прямая аналогия. Всё, что формируется внутри нейросети, так называемые "понятия", они же абстрактные обобщения это обобщения исключительно того, что приходит нейросети на вход. У неё больше ничего и нет, она не оперирует никакими другими данными. Мозгу на вход приходят сенсорные данные, нейросети - входные токены.
Nulliusinverba
15.09.2025 15:37Значит ли это, что если засунуть в робота нейросеть нынешнего поколения, то она будет думать, как человек, усваивая сенсорные данные?
Dron007
15.09.2025 15:37Не думаю, но я не очень хорошо представляю себе как происходит обучение у роботов и на каком этапе там языковая модель подключается. Вроде бы там это совсем разные системы с разной частотой работающие. Наверное и реализации разные есть.
ildarz
15.09.2025 15:37Всё, что формируется внутри нейросети, так называемые "понятия", они же абстрактные обобщения это обобщения исключительно того, что приходит нейросети на вход.
Внутри нейросети - да. Но я не очень понимаю реальный смысл этого утверждения применительно к головному мозгу (равно как и в целом его практическую ценность), оно возникновение и работу второй сигнальной системы не объясняет вот вообще никак. Ну давайте скажем, что вот у вас "на входе" газопылевое облако, на выходе - нынешняя цивилизация. В ней "нет ничего, кроме газопылевого облака". Верно? Если строить аналогию, как ее строите вы - да. Продуктивно ли в контексте обсуждения? Очевидно, нет.
Dron007
15.09.2025 15:37Не пойму какая связь с газопылевым облаком. Там эволюционное развитие, внутри нейросетей (биологических или искусственных) - потоки данных. Да, мозг еще и меняет свою структуру (хотя это в чём-то аналогично изменениям весов), но синаптические связи вполне себе аналогичны искусственным. Хоть головной мозг новорожденного это скорее уже предобученная за счёт эволюции нейросеть, предрасположенная к обучению в том числе лингвистическому, но конкретной семантической информацией она наполняется только за счёт поступления сигналов от сенсорных нейронов, как и языковые модели. В чём аналогия некорректна?
vadimr
15.09.2025 15:37Вот когда вы в нейронную сеть погрузите сенсорику (причём она у человека занимает подавляющее большинство нейронов) и построите отображение из слов в сенсорные функции (то есть собственно семантическую функцию), тогда всё это и заработает.
Я не против ИИ в принципе. Я просто считаю, что ЛЛМ - это шаг в ошибочном направлении.
M_AJ
15.09.2025 15:37Вот кстати тут принципиальная разница между языковой моделью и человеком, человек может оперировать понятиями для которых у него еще нет слов, то есть в языке может не быть отдельных слов для голубого и синего, но при этом человек отличит голубой от синего: если перед ним например положить три карточки (две голубые и одну синюю), объяснить что перед ним две голубые карточки и одна синяя и попросить выбрать синюю, то человек с этим справится. А вот языковая модель ограничена исключительно понятиями языка на котором обучалась, и если в этом языке нет разницы между голубым и синим, то её не будет и для модели.
Dron007
15.09.2025 15:37Из чего такой вывод? Последние работы по интерпретируемости показали, что в глубоких слоях активации отдельных нейронов включают разные свойства, например, конкретный географический объект, понятие ошибок в широком смысле, грамматические конструкции. На этих уровнях не происходит оперирования словесными конструкциями, в них потом преобразуется уже вывод.
M_AJ
15.09.2025 15:37На этих уровнях не происходит оперирования словесными конструкциями, в них потом преобразуется уже вывод.
Остается открытым вопрос, сможет ли языковая модель корректно синтезировать словесное понятие для нового для неё явления, которое никаким образом прежде не встречалось в обучающей выборке. Понять это можно пожалуй только обучив модель на каком-то небольшом или мертвом языке, а потом придумать задачки на вывод понятий и посмотреть как она с ними справится.
Dron007
15.09.2025 15:37Слишком нечёткая формулировка и эксперимент вряд ли возможен. В модели по сути столько понятий сколько точек в эмбеддинг-пространстве. Очень малое их подмножество можно привязать к словам. В одном вот согласен, модель научили рассуждать словами. Появился скрытый блок для внутренних рассуждений, но и там модель запаковывает своё огромное пространство эмбеддингов в языковые токены, чтобы исследователям удобнее и понятнее было, чем там модель занимается. Но вот эффективно ли это? Может было бы лучше ей не только очередной токен прогонять через коррекции в эмбеддинг-пространстве в трансформере, сводя его всё равно к словам, может лучше бы чтобы мыслила себе в этом пространстве как-то и очередные точки в нём строила. Там ведь могли бы быть не только словесные, но и визуальные, звуковые токены, может быть пространственные задачки бы получше решались.
ruomserg
15.09.2025 15:37Мы по мудрому наущению нашего руководства ровно это и делаем - как только выйдет новая модель или подход - бежим на себе тестировать. И пока я повторю свое эмпирическое правило: если нечто удалось успешно автоматизировать LLM - то это или преобразование текста, или вам не важен результат. Перевести скрипт на Perl в скрипт на питоне - отлично! Посмотреть на код и сказать какие corner-case пропущены - хорошо (хотя иногда фантазирует, но в рамках разумного). Изменить конкретную функцию под четко заданную инструкцию - тоже нормально. Реализовать в заданном месте конкретный алгоритм - да запросто! А вот инженерные задачи - провально, и без значительных улучшений. Последний пример - агентская система пишет тесты. Что-то у нее не получается. "Ага," - говорит она - "может быть у нас тесты кривые, сейчас я запущу реальный сервис и проверю на нем - может быть ошибки не будет". Запускает через доступ к командной строке сервис - и проверяет: ошибка есть. Начинает исправлять. Забывает что сервис все еще выполняется. Запускает компиляцию - компиляция падает из-за того что занят .exe файл. LLM этого не понимает - откатывает свое последнее изменение. Все равно не компилируется. Дальше LLM переходит в "бесеркер mode" и начинает крушить проект направо и налево... И это нельзя исправить волшебным промтом, или еще одной LLM сверху! Это отражает полное непонимание картины мира вокруг. Еще раз повторюсь - LLM сегодня это дошкольник. Он вам рисует на бумаге каляку-маляку и на серьезных щах рассказывает: "Это - киса. Вот у кисы глазки". И он сам в это верит! Только от того что он за папой-мамой механически выучил тыкать в бумагу и повторять "тут у кисы хвостик" - хвостик на листочке не появляется. Нужна другая ступень развития чтобы перейти от слов к деятельности...
dkeiz
15.09.2025 15:37>Запускает компиляцию - компиляция падает из-за того что занят .exe
А в моем случае убивает таски по id и нормально запускает для тестирования. Я понимаю, что у разных агентов для разных LLM по разному. И в остальном я согласен, нужен глаз да глаз за этими кодо_бредо_генераторами. Но иногда они вполне справляются с полученными заданиями.
Dron007
15.09.2025 15:37Забывает что сервис все еще выполняется. Запускает компиляцию - компиляция падает из-за того что занят .exe файл. LLM этого не понимает - откатывает свое последнее изменение. Все равно не компилируется. Дальше LLM переходит в "бесеркер mode" и начинает крушить проект направо и налево... И это нельзя исправить волшебным промтом, или еще одной LLM сверху! ... Это отражает полное непонимание картины мира вокруг.
У ИИ вообще плохое понимание времени. От RNN ушли ради производительности, а наш мозг как раз работает с временнЫми паттернами очень активно. Но я бы не драматизировал, приводя это к "непониманию картины мира". Если человеку стирать память и подсовывать листик с текстом, чуть меняющимся, он тоже не очень в теме будет. Думаю, с этим тоже разберутся или внешней обвязкой, таймстемпами какими-то, сменой архитектуры может даже. Но даже текущие модели обучают, подсовывают напоминалки что было до, какая активная задача и они уже получше справляются. Пока, думаю, будет решаться улучшением агентской обвязки, потом может что-то в архитектуре улучшат.
Wesha
15.09.2025 15:37Если человеку стирать память и подсовывать листик с текстом, чуть меняющимся,
то получится неплохое кино!
Antra
15.09.2025 15:37Чудеса.
Roocode с бесплатной моделью через OpenRouter при модификациях моего FastAPI приложения пытается его запустить. Увидев, что порт занят, пишет, что приложение уже запущено и он надеется, что у меня включен reload. И запускает curl для проверки, что там возвращается, чтобы использовать это для приведения в соответствие React.
Wesha
15.09.2025 15:37Изменить конкретную функцию под четко заданную инструкцию
Ну да, ну да...
может быть ошибки не будет
Ну точно джун.
M_AJ
15.09.2025 15:37Второе - я опять же, лично, наблюдал как два агента в цикле прожигают токены с нулевым КПД.
Мне вот стало интересно, задавался ли вообще кто-то вопросом существует ли что-то вроде "проблемы останова" в контексте взаимодействия агентов, построенных на основе генеративных языковых моделей?
ruomserg
15.09.2025 15:37Как-то мне кажется что с этим будет глухо. То есть, остановить принудительно-то их всегда можно. А вот доказать что они за конечное количество шагов окажутся в одном из состояний, отмеченных как терминальное - вряд ли.
Кстати, с ИИ-агентами мы интересным образом шагнули назад во времени в смысле построения надежной системы из принципиально ненадежных компонентов. Проблема как-бы всегда была в фоне рядом с нами - но мы в нормальных компьютерах ее игнорируем примерно с перехода на транзиторы, и тем более на СБИС. Потому что вероятность случайного сбоя процессора - один на дикие триллионы тактов/операций. А в случае с LLM мы опять оказываемся по вероятности сбоя - во временах теплого лампового ENIAC или даже релейного COLOSSUS... И парадигма программирования (и вообще использования компьютера) тогда была совсем другая!
Wesha
15.09.2025 15:37экспоненциальный рост кончился, революция машин на неопределенное время откладывается!...
А я всегда говорил: главное счастье в жизни — это возможность выйти на руины, покачать головой, и, назидательно делая пальцем, произнести: «А я ведь вас предупреждал...»
Areso
15.09.2025 15:37Не совсем очевидно -- у него весь рой крутился на ноутбуке? Это же что же там за ноутбук такой?
Если он делал это удаленно -- то как, учитывая, что на самолетах интернет есть не всегда, и не то чтобы очень хороший?
Короче, вопросов больше чем ответов.alexmasyukov
15.09.2025 15:37Самолет, как я понял, частный, а значит там Старлинк есть или аналог. Рой он использовал в claude code, в облаках, раз в статье он упоминается.
Daddy_Cool
15.09.2025 15:37А что с агентами нынче?
Я могу сказать - Эй, нейроагент - поставь мне на мой комп c виндой GTK? (Например).
А то я как-то стал ставить, но умучился и бросил.Dron007
15.09.2025 15:37Я не пробовал именно GTK, но CLI агент, когда попросил его написать 4-килобайтную демку на Си, просил хотя бы путь к компилятору ему дать. Я сказал "сам ищи", он просканировал "Program Files" и нашёл какую-то старую студию, написал и скомпилировал. Правда в процессе размышлений чертыхался от ошибок компиляции (буквально). Но всё получилось, с использованием системных 3d-библиотек, правда, размер которых, естественно, отдельно считать надо.
KEugene
15.09.2025 15:37Не, ну было бы интересно увидеть все это на каком-то простом примере. Например, калькулятор. Или какой-то "Блокнот". От идеи (некий первый запрос от человека) до реализации. Нейронки можно подключить к тому же гитхабу, но как их заставить сотрудничать да еще и с разными ролями?
oldzoomer
15.09.2025 15:37Нейронки помогают, но за ними приходится контролировать будь здоров.
И да - Антропик сжигает кредиты будь здоров. А Дипсик даёт +- схожее качество за приемлимый прайс.Kahelman
15.09.2025 15:37Согласен, будущее уже наступило, осталось только перепробовать все существующие модели и найти ту самую, которая работает …
alexmasyukov
15.09.2025 15:37У вас всего 4 модели по сути на выбор: Sonnet/Opus, GTP5, Grok, DeepSeek.
Нет больше достойных "существующих моделей", чтобы прямо выбирать и ломать голову.n0knwn
15.09.2025 15:37Не совсем согласен с Вашим утверждением, поскольку есть еще семейство Qwen.
На простом примере: Qwen3-Coder буквально за минут 15 смог реализовать (как бы так сказать, мм) локальный ускоритель одного известного видеохостинга. Написано на Go, без использования сторонних библиотек.alexmasyukov
15.09.2025 15:37Да, забыл про Qwen3, но отзывы среди разработчиков о нем так себе (судя по тредам на reddit).
oldzoomer
15.09.2025 15:37Квен реально так себе, зато он полностью официально халявный, и из лимитов только 4к запросов/день. У опенроутера, напомню, только 1к запросов/день, и то некоторые провайдеры ставят свои лимиты поверх опенроутерских (привет, Chutes).
Antra
15.09.2025 15:37GLM 4.5. Даже GLM 4.5 Air очень даже.
Разумеется, в облаке, не на домашней 3090.
alexmasyukov
15.09.2025 15:37Кто вам мешает купить подписку, вместо платных токенов? Для меня выходит выгоднее от 10 раз. Сжигаю токенов на 2000$ в месяц примерно (+-300$) (это замеряется), а плачу за подписку 200$.
oldzoomer
15.09.2025 15:37Подписка-подпиской, но у опенроутера нету подписок, а Антропик банит все аккаунты, замеченные в логине из подсанкционных стран.
alexmasyukov
15.09.2025 15:37Впервые слышу про баны, учитывая что знаю порядка 20-ти человек работающих в России с claude code (естевственно все под vpn)
stmirage
15.09.2025 15:37Просто мы живем в мире, когда человек садится в самолет презентовать несуществующий продукт через 6 часов и гордится этим.
SanyaZ7
15.09.2025 15:37Как бы радоваться особо не стоит, так как агентный кодинг - попытка подсократить количество вакансий/ работы на разработку, причём не немного как в случае вайб кодинга, а довольно значительно.
Pavel_SD
15.09.2025 15:37Не исключено, что просто произойдёт то, что уже происходило на наших глазах. Софт станет ещё более красивым, функциональным и дружественным пользователю, но при этом и гораздо более сложным, забагованным и непонятным. И вот, снова нужна толпа людей чтобы это всё обслуживать, проверять за машинами, вносить правки. И будут команды, ответственные за каждый небольшой кусочек функциональности. Потому что такой подход даст +0,003% к многомиллионной выручке, позволит ещё быстрее выпускать релизы и не отстать от конкурентов в борьбе за аудиторию
Wesha
15.09.2025 15:37гораздо более сложным, забагованным и непонятным.
Фантасты ещё давно предсказали появление профессии...
mer_mlab
15.09.2025 15:37Ох уж эти западные аббревиатуры. По-русски (ну почти) это — ИИ-сокодинг. Просто и понятно. Если привлечено много ИИ, то это — ИИ-мультикодинг. Звучит и просто и универсально.
orange_10
15.09.2025 15:37Где-то я уже все такое читал. О том, какие были ожидания от COBOL, ведь в нем код пишется обычным английским языком, тебе не нужно быть программистом, изучавшим ассемблер, достаточно на обычном человеческом языке сформулировать свои мысли!
Или об ожиданиях от SQL. Как любой бухгалтер теперь сможет сам запросить список людей с з/п>... и отсортировать по KPI на чистейшем английском, наконец-то будут не нужны программисты чтобы работать с данными!
Никогда такого не было - и вот опять :-)
starfair
15.09.2025 15:37Основная проблема - сгенерённый код, если содержит какие то слабоуловимые логические ошибки, очень плохо воспринимаемы для последующего анализа и тем более коррекции, Если с малыми сгенерированного ИИ порциями кода при вайб коддипнге это ещё хоть как-то поправимо, то для сложных и объемных проектов - это просто беда-беда. А поскольку уровень программистов будет неизбежно пдать, то чем дальше, тем сложнее будет такое довести до ума, в случае чего, и не факт. что ИИ тут особо поможет
alexmasyukov
15.09.2025 15:37Проблема почти полностью решается покрытием e2e тестами с широкими сценариями. Генерировать код через ИИ (без контроля) и не покрывать его тестами – выстрел в голову на первых же этапах.
artptr86
15.09.2025 15:37Чтобы покрыть код тестами, нужно знать ожидаемое поведение. Соответственно, нужно либо сначала потребовать от ИИ написать пространное ТЗ по желаемому продукту, либо написать его самому.
alexmasyukov
15.09.2025 15:37Все верно. Все начинается с ТЗ и планирования разработки. ТЗ пишите вручую более общее, далее уточняете с ИИ, далее уже просите ИИ создать детальный план работ (спланировать) и записать в файл. И вот уже по этому файлу просите писать тесты одновременно с выполнением этой большой таски. Так вы увеличиваете шансы рабочего кода и точность в разы.
artptr86
15.09.2025 15:37В теории так и нужно. Но хватит ли у ИИ контекста на всё?
constXife
15.09.2025 15:37Контекст зависит от модели (у Gemini большой контекст, у Sonnet 1m тоже), но в целом декомпозиция + в условном claude code есть compact, который суммаризирует прошлую беседу.
Например для моего pet-project Gemini придумывает ТЗ по моим хотелкам, потом создаем таски в подпапке с описанием того что нужно сделать, тесты и какие они должны покрывать кейсы, документация архитектуры системы (чтобы чат-бот Gemini в следующем чате сразу понимала что к чему).
Вот условный отрывок из моего CLAUDE.mdProject Structure
2 │ - Documentation is located in the @docs/ directory
3 │ - Using uv as the package manager
4 │
5 │ ## Task Management
6 │ - Стратегические задачи хранятся в @docs/05_ROADMAP.md — глобальные задачи.
7 │ - Тактические задачи хранятся в @TODO.md - архитектурные улучшения и технические задачи
8 │ - После завершения задачи помечаются выполненными (✅) в TODO.md
9 │ - Обновляй статус в процессе работы - отслеживай прогресс по каждой задаче
10 │
11 │ ## Core Programming Principles (из @docs/04_REQUIREMENTS/README.md)
12 │ 1. Fail-Fast - валидация на входе, исключения вместо null/undefined
13 │ 2. Явное лучше неявного - все зависимости явно переданы
14 │ 3. No Legacy, No Fallbacks, No Backward compatibility, No versioning
15 │ 4. Scalability by Design - "Как это будет работать для 100x данных?"Правда все равно приходиться регулярно бить по рукам, потому что Claude иногда забивает на правила.
alexmasyukov
15.09.2025 15:37Мы не про подход вайбкодинга говорим. Не у одной модели на такое не хватит контекста. В том и секрет, что нужно уметь работать с инструментами и применять Context Engineering. Не нужен большой контекст. Нужно детальное планирование и подход Explore → Plan → Code → Commit и так итерационно.
starfair
15.09.2025 15:37Об том и речь, что нужно либо заранее настолько хорошо расписать ТЗ, что в итоге и использование хоть рой, хоть вайбкодинга это уже такое себе, и можно многие части и ручками самому написать, раз так все подробно и четко, либо же если не так подробно и четко, то и результат будет уже не такой уж и внятный и от любой схемы эксплуатации ИИ, выходит. Так что, тут ещё пока большой вопрос, насколько стоит доверять самому ТЗ от ИИ, чтобы ему же потом доверить анализ и тест того что он наваяет. Пока мой личный опыт приводит к тому, что нужно многое из сделанного немедленно проверять самому, и желательно погурзившись в написанное хотя бы поверхностно. И после каждой итерации ещё и чистить надо код - дай боже, ибо если оставить как есть, там столько левого и неиспользуемого остается, хоть как ты не расписывай в команды об этом LLM.
Но я и не великий спец, и пока моя область использования ИИ в кодинге - это скорее вспомогательная. И то я вижу, что стремительно деградирую как специалист, прямо пропорционально вовлеченности в процесс ИИ. И все равно и такой скромный мой опыт как то не сильно пока говорит, что есть уже чудесные технологии, которые прямо всё по моему желанию сделают (особенно учитывая, что желание надо расписывать с головной болью в течении полудня и мучительно стараясь впихнуть все что может и не может произойти в промпт)
tryamk
15.09.2025 15:37Прикольно. Теперь не просто токены к LLM продают или одиночных агентов, а целые рои. Скоро оркестраторов отдельно будут продавать.
Хотя, когда начали открываться всякие фонды "этичного ИИ", стало понятно, что эту область инфоциганство захватывать будет. Почва-то для фантазий идеальная: мало кто из неспециалистов понимает как LLM работают, а продаваны из каждого утюга вещают про их перспективность и необходимость.
spirit1984
15.09.2025 15:37Есть у историков такое понятие - непреднамеренное свидетельство. Это когда человек вещает об одном, но внезапно в его речи проскальзывают части, которые явно противоречат тому, что он проталкивает. И вот это свидетельство, скорее всего - правда.
Во время недавнего трансатлантического перелёта Марк Раддок, предприниматель-резидент в GALLOS Technologies, решил задействовать свою команду ИИ-агентов. На высоте 34 тысяч футов над Атлантикой у него оставалось меньше 48 часов до важнейшей демонстрации продукта для ключевого клиента, а его программная платформа всё ещё была не готова.
Т.е. предприниматель не смог правильно организовать работу, чтобы важнейшая демонстрация продукта была готова? Я бы подумал, прежде чем у него что-то заказывать. И еще:
К тому моменту, как самолёт пересёк Исландию, его «рой Claude Code», как он позже рассказал в интервью VentureBeat, создал более 50 React-компонентов, набор макетов API для трёх корпоративных интеграций и полноценный административный интерфейс.
Я не совсем понял, где он запускал рой агентов и как общался с системой, находясь в полете? Да, интернет сейчас имеется даже на самолетах, но отлаживать что-то онлайн в самолете - ну такая себе идея.
DarthVictor
15.09.2025 15:37Вам тоже смешно читать, как люди никогда агентное программирование не использовавшие, рассказывают про него людям использующим его каждый день? Как третьиклассник, делающий доклад учителю про круговорот воды в природе. И учитель кивает ему, мол как интересно.
И нет, рой агентов не работает из-за потери фокуса разработчика.
X-P0rt3r
15.09.2025 15:37О, чудный новый мир!
Прошел год (полтора? два?), как сказали: "Джуны теперь не нужны!"
Прошло полгода(?), как пошли статьи от людей, которые, не будучи погроммистами, вайбкодят игры, пи��ут "Это круто!". И их плюсуют.
Вчера промелькнула новость, что сеньоры нынче - уже не
тортте сеньоры, а почти "бэби-ситтеры", только вместо джунов пасут стада ИИ-агентов, а сами не кодят.Сегодня мы уже читаем, что вайбкодинг мертв (шта? в младенчестве скончался?!!), и рулят уже какие-то "рои".
Не знаю, как вам, но все это начинает напоминать какой-то сюр. Больше статьей про ИИ богу маркетинга ИИ. Чем безумнее, тем лучше!
Ожидаю коллапс Хабра. Итак уже читать невозможно, почти каждая первая новость со словом "ИИ". Когда статьи про тест батареек (да чего угодно, на самом деле!) и прочие "JS не нужен" читаются как глоток свежего воздуха среди всего этого "...-ИИ-ИИ-ИИ-...".
n0isy
15.09.2025 15:37Тише-тише. БелкиИстерички.jpg. Не так всё плохо, чтобы паниковать. /s
Первый тейк: а вы уверены, что джуны теперь нужны? Вы на рынок труда когда активно заходили? Там всё печально. Не совсем ужас-ужас, но явно давление от ИИ есть.
Второй тейк: в новой теме люди не определились с понятиями. Зачем-то окрасили вайб-кодинг чем то плохим, и ищут новые слова. Что рой агентов, что вайб-кодинг - это одно и тоже. Не надо так кричать. Никто не кончался.
Третий тейк: вы же можете себе ограничить материал для чтения. То, что каждая вторая статья про ИИ на Хабре и показывает, что это не совсем хайп (IMHO). Поживём - увидим.
KonstantinTokar
15.09.2025 15:37Есть взгляд с другой стороны. Сейчас появляется скрытый дефицит программистов. Он скрытый не потому что кто-то заговор устроил. Происходит промышленная революция, если раньше можно было сделать сложный мотор и его продать, то сейчас надо сделать мотор, что стало неожиданно просто, и продать его с софтом управления. Все ведь помнят, что предыдущие лидеры капитализации типа Дженерал Моторс были смещены софтовыми компаниями, а эппл снова стал великим когда запустил программные платформы?
Сейчас есть много гипотетических проектов, за которые не берутся по одной причине - некому выполнять программную часть. Программисты либо слишком дорогие, либо не умеют. ИИ потенциально решит проблему. И сейчас реально решает, пока в очень ограниченных масштабах. Вот тут и прячется скрытый спрос на программистов, удовлетворять которому некому. Кроме ИИ.
ManulVRN
15.09.2025 15:37есть много гипотетических проектов, за которые не берутся по одной причине - некому выполнять программную часть
Можно примеры таких проектов? Спрашиваю без сарказма, действительно интересно.
KonstantinTokar
15.09.2025 15:37У любого производителя оборудования любого типа пачка задумок. Простой уровенный пост потенциально это вебсайт, аналитика, интеграция, экспорт.
vadimr
15.09.2025 15:37Программисты либо слишком дорогие, либо не умеют. ИИ потенциально решит проблему.
Тут ключевое слово “потенциально”.
Те программисты, которые не умеют – они тоже потенциально решат проблему. Кстати, с большей вероятностью, чем ИИ, потому что Коран им не запрещает научиться.
KonstantinTokar
15.09.2025 15:37У меня есть некоторая практика, подтверждающая моё мнение. Это не абсолютно во всех случаях, но опытный программист может не имкть компетенций в какой то узкой области, например джавист на питоне не умеет, а с ИИ вполне. ИИ сейчас хорошо справляется с тактическими задачами, с которыми как раз человек может справляться плохо, а вот с стратегическими ИИ не справляется пока, но в них разбирается человек. Так и пооучается, что разработчик знает что ему надо, знает как надо, но например не имеет времени и знаний на кодинг. ИИ это добавляет.
Да, программисты которые учатся становятся дорогими программистами. См.выше.
vadimr
15.09.2025 15:37Формально перевести алгоритм с джавы на питон – это не решение задачи, а простая трансляция (транспиляция). А даже учесть при этом нюансы среды (например, особенности сборки мусора или представления чисел в питоне по сравнению с джавой) современный ИИ (как, впрочем, и дешёвый программист) не может.
alexmasyukov
15.09.2025 15:37Вы уверены во второй части сказанного? Давно проводили эксперимент такой? "представления чисел в питоне по сравнению с джавой" – более чем уверен, это вообще не проблема для хороших моделей, типа Opus.
vadimr
15.09.2025 15:37Есть примеры?
alexmasyukov
15.09.2025 15:37Как постоянно работающий с моделями Sonnet/Opus на нескольких языках, не замечал, чтобы они не знали особенности конткретного языка.
Может развернете мысль "представления чисел в питоне по сравнению с джавой", в чем они могут ошибиться? Можно ведь эксперимент провести. Модели у меня под рукой.vadimr
15.09.2025 15:37А я, например, замечал, что даже на простейшие прямые вопросы, например:
Какой результат выполнения будет у программы на Фортране:
n = 0 do r = 1e9, 2e9 n = n+1 end do print *, n
ни одна модель не может ответить правильно, потому что для неё что Фортран, что Си – один хрен, она исходит из семантической эквивалентности конструкций с похожим синтаксисом. Только всякой наукообразной пурги могут нагонять в рассуждениях.
alexmasyukov
15.09.2025 15:37Мы же обсуждаем не то, как модель результат предсказывает, а то, как она код пишет, изначально зная особенности языка и избегая ошибки.
Сейчас спросил у Sonnet 4:Давайте разберем этот цикл на Фортране пошагово. В этом коде: n инициализируется нулем Цикл do с переменной r идет от 1e9 до 2e9 По умолчанию в Фортране, когда не указан шаг, используется шаг 1 На каждой итерации n увеличивается на 1 Цикл эквивалентен: fortrando r = 1000000000, 2000000000, 1 Количество итераций будет: (2000000000 - 1000000000) / 1 + 1 = 1000000001 Однако, здесь есть важный нюанс! В Фортране переменные цикла и счетчики по умолчанию имеют тип INTEGER, который обычно 32-битный. Максимальное значение для 32-битного целого числа со знаком составляет 2,147,483,647. Поскольку значение n должно достичь 1,000,000,001, что меньше максимума для 32-битного целого, программа выполнится корректно. Результат: 1000000001 Примечание: Если бы верхняя граница цикла была больше (например, 3e9), то могло бы произойти переполнение переменной цикла r, что привело бы к некорректному поведению программы.
vadimr
15.09.2025 15:37Ну эта даже до самых основ не дошла, ей что
2000000000.0 - 1000000000.0
,2000000000 - 1000000000 –
один хрен. Большинство ломаются дальше.alexmasyukov
15.09.2025 15:37Собственно контекст диалога не об этом. Не удивительно, что она плохо предсказывает результат, она для этого и не предназначена.
vadimr
15.09.2025 15:37А как можно писать код, не предсказывая его результат? Хоть ты кожаный, хоть железный.
Не, ну можно, конечно, формально применять всякие доказательные шаги преобразования, но это не про ЛЛМ история.
alexmasyukov
15.09.2025 15:37LLM скорее предсказывает поведение и логику кода, нежели результат. Простой пример: на большом фронтендном коде на JS, она понятия не будет иметь никакого о точном результате, потому как этот точный результат зависит от многих факторов поведения пользователя и он динамичен (сложная форма, к примеру). Но код на js + ts для react будет выдан идеальный, рабочий (и там будет далеко не один файл на выходе).
Вывод: им не нужно знать точный результат, чтобы хорошо писать код.
n0isy
15.09.2025 15:37Эм. Я не понял. А вы можете предсказать результат вычеслений В УМЕ? или запустите программу и проверите результат? Агентная система как раз и может запустить и посмотреть. А дальше порассуждать об этом.
vadimr
15.09.2025 15:37Вы можете предсказать результат выполнения бесконечного цикла в уме, или будете его запускать?
Вообще-то программирование и заключается в предсказании в уме.
n0isy
15.09.2025 15:37LLM тоже может анализировать результат бесконечного цикла. Как и вы и я. Вот только ВСЕ могут ошибиться:
Пустой цикл может быть вырезан на этапе компиляции. Он может быть пройден предсказателем на x86, или переполнен, если там цикл вида `i=1; while(i++) {}` и пройден за десятые доли секунды.
Это никак не отменяет того, что LLM оказывает мне конкуренцию на рынке труда.
alexmasyukov
15.09.2025 15:37public class Test { public static void main(String[] args) { int a = 2_000_000_000; int b = 2; int c = a * b; System.out.println(c); } }
Взял за основу код на Java, и сказал переписать код на Python в другой файл рядом:
def main(): a = 2_000_000_000 b = 2 c = a * b print(c) if __name__ == "__main__": main()
Модель Sonnet 4. Как видите, модель поняла, что можно допустить ошибку переполнения.
vadimr
15.09.2025 15:37Вы сами-то попробуйте запустить эти две программы.
alexmasyukov
15.09.2025 15:37-294967296 Java
4000000000 Pythonvadimr
15.09.2025 15:37Верно. Вот и весь автоматический перевод.
alexmasyukov
15.09.2025 15:37Да, но модель сказала, что здесь будет момент с переполнением, а я казал "сделай в лоб". Поэтому числа были перенесы без учета этого.
Если правильно поставить задачу "сделай с учетом особенностей языка при работе с числами", момент изначально будет учтен в результате.
Go/JS имет такие же особенности с числами, что и Java/Python, поэтому я знаю поведение этих моделей.
KonstantinTokar
15.09.2025 15:37Ну так роль человека в том чтобы знать где кто как может налажать. В реальных проектах проверено. Знание предметной области сильно упрощает.
alexmasyukov
15.09.2025 15:37После просьбы перести, учитывая ей сказанное замечание, результат:
def main(): a = 2_000_000_000 b = 2 c = a * b # Эмулируем 32-битное переполнение int как в Java c = ((c + 2**31) % 2**32) - 2**31 print(c) if __name__ == "__main__": main()
Важно понимать: модели сами говорят, что есть ошибки, а исправлять их или нет, это на усмотрение пользователя, потому что намерение пользователя может быть в переносе чисел как есть. Насколько я это понимаю исходя из опыта работы с ними. Важно что она сама сказала об этом, что и было нужно.
vadimr
15.09.2025 15:37Стоит конкретная задача перевести код из трёх операторов, печатающий конкретное число (заметьте, даже не я её придумал). Поставив эту задачу перед ЛЛМ, вы получили неверный ответ и банальное рассуждение на тему. Мне сложно понять, как это могло бы помочь в реальной работе.
alexmasyukov
15.09.2025 15:37Смотрите, в реальной работе вы как разрботчик будете знать об этом и сами модель предупредите, чтобы учитывала это. Вы же разработчик. Это называется Context Engineering и вот этот подход как раз и используют настоящие разработчики при использовании AI в работе.
В том и отличие разработчиков от вайб-кодеров.
KonstantinTokar
15.09.2025 15:37Я имел ввиду другое. Программист на java, не умеющий программировать на питоне, с помощью ии сможет написать программу на питоне. Не перевести с java, а написать новую. Он же сможет сделать это на rust, ruby, и на куче других языков. Просто потому что владеет смежными знаниями и опытом. Если он к тому же разбирается и в предметной области - ещё лучше.
morgoved
15.09.2025 15:37Я сейчас пользуюсь курсором, единственная адекватная модель это cloude-4-sonet, я devops, и даже у меня дыбом волосы встают от того что он лупит, на адекватный ui с tailwild css 4 на svelte 5, у меня ушел месяц... И я его раза три четыре рефакторил - и это еще без бэка, у него есть свод правил проекта, и на какие-то он кладет хер, пока он чет делает надо каждое его действие проверять, искать самому имена функции, смотреть че он пытаеися придумать, по умолчанию он такую порнуху сделает, что икать будешь.
alexmasyukov
15.09.2025 15:37Попробуйте на Claude Code cli перейти, модель идентична а разница огромна. Cursor имеет свою надстройку над моделью, которая многое портит.
dkeiz
15.09.2025 15:37у соннета, как и у опуса с начала августа наблюдалась лютая деградация эффективности, о чем сами атропики скудно упомянули. При чем вас с утра могли попасться нормальные модели, а к вечеру дегродные, ломающие половину проекта. Соннет4 уже не тот.
alexmasyukov
15.09.2025 15:37Это пофиксили через неделю. Читайте официальный реддит. Проверено лично – модели вернулись в адекватное состояние, работаю ежедневно с ними. https://www.reddit.com/r/ClaudeAI/
The_KOPACb
15.09.2025 15:37Ммм, кичиться тем что ты как школьник
делаешьописываешь дз на подоконнике во время перемены. Достойно инвестиций.
werymag
15.09.2025 15:37Сама концепция "агентов" была очевидна чуть ли не со второго дня использования ИИ. Где ты используешь не один общий ИИ для всего, но он все делает так себе, а набор отдельных "чатов". Думаю кто с этим постоянно работает быстро приходил к идее давать разные промты с наборами правил и целей разным "чатам с ИИ", чтоб каждый делал свою задачу независимо и со своим "виденьем", а потом собирать в общий "чат" для финальной отладки. И очевидно что было бы удобно это всё автоматизировать и развить до масштаба "каждой задаче по отдельному промту". По мне вершиной было бы использовать для разных целей вообще разные модели обученные на разных данных (так они будут легче, работать быстрее, но в рамках своих задач - не хуже).
Просто по мне это всё тот же вайбкодинг, просто с набором логичных доработок, а тут его как прям что-то супериновационное и прорывное подают, термины пафосные придумывают: "рой агетов" ух.
Чую я - кто то ищет инвесторов и нагоняет хайпа.
Вещь нужная, но по мне скорей эволюционная, чем революционная.
rdo
15.09.2025 15:37Ну то есть он сгенерировал фронт по контракту? Ничего себе, вот это технология 30 века.
SabMakc
15.09.2025 15:37Смотря на "лидера" ИИ в виде ChatGPT - такого будущего нам не надо.
Пробовал зарегать акк на почту со своего домена - ругается что свои домены не разрешены. Но ругается после ввода кода из письма с подтверждением! И никуда нельзя с этой страницы перейти дальше - только ввести код или перевыслать его можно. Ладно, подчистил данные браузера - зарегал на gmail-аккаунт.
Буквально сегодня восстанавливал забытый пароль от ChatGPT - и это тоже интересный квест, оказывается! Алгоритм стандартный - подтверждение сброса через код на почте. Но... Пароль сбрасывается не сразу, а через какое-то время!
Кроме того, код для входа в аккаунт присылают сразу после сброса, который потом ни где не запрашивают. После сброса просто переход на страницу входа (как раз с недосброшенным паролем).В общем, крайне кривое поделие. Подозреваю, что код писал ИИ - уж очень неожиданные ошибки и проблемы в стандартных сценариях.
moscowman
15.09.2025 15:37Скажу образно, когда вижу статьи о вайбкодинге и вот такую статью, перед глазами люди на улице со значками на лацкане пиджака "
Хотите похудеть? Спросите меня как
".
Вот прям один-к-одному.
Как ничего не делая, сделать так, чтобы за тебя всё сделал кто-то другой (на самом деле у тебя просто отняли деньги), а худеть (программировать) нужно всё-таки стараться самому.
kuznetsovkd
Теперь надо придумать рой тестировщиков.
madballer34 Автор
Если верить героям колонки, то их придумали уже и даже дали «сущности» :)
Sau
А потом рой пользователей, которым это нужно.