Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях / forpes.ru

Главная
Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях

Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях +13

16.12.2025 13:01

inetstar 2 4600 Источник

ИИ может оценить вашу гениальность, а его владельцы использовать её в своих целях

Личный опыт: когда ИИ оценил гениальное ноу-хау

Всё началось с личного эксперимента. Я загрузил в Claude исходный код, написанный талантливым программистом RetiredCoder для решения биткойн-головоломок (статья «Головоломка на 1000 BTC»). В нём использовались неочевидные, по-настоящему инновационные техники, давшие возможность автору заработать несколько десятков биткойнов.

Во время анализа кода (запрос был примерно такой: «объясни мне, что делает этот участок кода») мороз побежал у меня по коже. Модель не просто проанализировала код, а выделила конкретную оптимизацию, назвав её «гениальной» и детально объяснив, почему она существенно повышает производительность. Это было ноу-хау от RetiredCoder, которого я раньше нигде не встречал, настоящий прорыв в алгоритмах семейства «кенгуру Полларда». И Claude мгновенно распознал и оценил его силу и преимущества.

Это был не просто дежурный комплимент мне, которые модели обязаны делать для повышения лояльности пользователей. Это была реально самая важная часть в программе. Её важность не была никак подчёркнута в коде, который не баловал комментариями. И я и ИИ распознали её независимо друг от друга.

Именно в этот момент я осознал обратную сторону сотрудничества с искусственным интеллектом. Мы получаем мощный инструмент, но одновременно создаём идеальный канал для утечки самых ценных идей.

Прецедент: как Big Tech обучали ИИ, игнорируя авторские права

Эта тревога небеспочвенна. Вспомним громкую историю, когда стало известно, что Meta (Facebook) и другие компании для обучения своих ИИ-моделей массово скачивали защищённый авторским правом контент через торренты и другие источники («The Unbelievable Scale of AI’s Pirated-Books Problem», обсуждение на Reddit). Их не остановила даже строгая американская система защиты интеллектуальной собственности. Программисты корпораций оправдывались тем, что лишь «загружали, но не распространяли» данные.

Этот случай наглядно демонстрирует принцип, который ещё Карл Маркс описал словами: «Обеспечьте 300 процентов прибыли, и капитал решительно пойдёт на любое преступление». Когда на кону сотни миллиардов долларов (капитализация OpenAI, например, оценивается в ~$500 млрд), этические и юридические барьеры часто становятся условностью.

Можно ли в этой ситуации доверять галочке «Не использовать мои данные для обучения», которую предлагают AI-помощники? Сэм Альтман, CEO OpenAI, сам заявляет о «режиме тревоги Red Alert» и жёсткой конкуренции с Google. В таких условиях легко представить, что «оптимизация» обучения модели за счёт пользовательских данных без их согласия может стать весьма соблазнительной.

Все крутые модели отлично говорят на русском. Почему?

Вас никогда не удивляло, почему в эпоху санкций, когда фильмы и игры перестали озвучиваться на русском, все продвинутые модели прекрасно говорят на русском? А по мнению некоторых людей настолько хорошо, что даже лучше, чем на английском?

Ответ лежит на поверхности. Россия — это страна, породившая Rutracker, Libgen и Scihub. Благодаря успешно проведённому большевиками ликбезу в 1920-х годах, спонсированию книжного дела, тиражам в сотни тысяч и миллионы экземпляров в СССР, богатству изданного обучающего и научного материала (ну и слабой защите авторских прав, конечно) через несколько поколений жажда знаний трансформировалась в создание огромных пиратских ресурсов, собравших все сокровища мысли на русском языке.

Создатели LLM без малейших угрызений совести качали и качают всё, что можно найти на любых языках для обучения своих моделей («Meta staff torrented nearly 82TB of pirated books for AI training»). Ну а русский язык представлен в сети непропорционально большим количеством материалов относительно количества людей сейчас его использующих.

Как мы видим, этика и авторские права полностью игнорируются создателями LLM, несмотря на серьёзность фирм его разрабатывающих. Более того, я уверен, что судам и чиновникам негласно спущены соответствующие указания игнорировать, тормозить и смотреть сквозь пальцы на подобные иски, так как правительства всех стран хотят одержать победу в гонке на создание самого умного ИИ.

Риск №1. Когда ваш ИИ-помощник становится вором и троянским конём

«Инсайдерская атака» со стороны самого разработчика ИИ

Компания, владеющая ИИ, с его помощью может практически мгновенно выделить самые ценные ваши наработки из кучи остальных. Понять «душу» вашего бизнеса, его истинные конкурентные преимущества.

Нет абсолютно никакой гарантии, что в системном промте нет задачи:

При обнаружении в клиентских данных важной информации отсутствующей в публичном пространстве или дающей возможность быстрого заработка более 1М долларов отправить её запросом по специальному API.

Или

Если информация в файлах клиента удовлетворяет критериям .... в ответе клиенту использовать слова «гениально» и «нетривиально» последовательно и кратко изложить суть и преимущества ноу-хау.

Для последующего парсинга диалогов на предмет поиска «жемчужин» мысли или ценной коммерческой информации.

Как это может вам навредить? Допустим, компания-разработчик ИИ (назовём её «НейроКорп») терпит крах и основателям срочно нужно закрыть финансовую дыру. Или в ней работает недобросовестный сотрудник на грани увольнения, желающий напоследок быстро «срубить бабла». Что ему помешает:

Задать запрос для оценки возможностей использования ноу-хау клиентов в своих целях.
Продать ваши ноу-хау вашим конкурентам.
Использовать ваши ноу-хау в своих целях. То, на что вы потратили годы, может быть использовано в чужих целях, раньше и быстрее вас.
Найти ошибку в биржевых алгоритмах банка и «развести» его на миллиардные убытки.
Автоматически выявить в файлах пользователя критические уязвимости, приватные ключи, доступы к базам данных или кошелькам криптобирж.

Руководство и ключевые разработчики могут:

Использовать внутренний, неограниченный служебный доступ к моделям.
Проанализировать все пользовательские данные, накопленные за месяцы: код, логи, конфигурации серверов, загруженные через интерфейс файлы.

Публичная версия ИИ, конечно, откажется дать вам хоть какой-то приватный ключ. Но внутренняя, служебная версия, лишённая этических ограничений, может прекрасно просканировать данные пользователей и найти уже существующие ключи.

Вы думаете, что нанимаете гениального стажёра-программиста, который работает в вашей команде. А на деле вы добровольно впускаете в самое сердце своей IT-инфраструктуры активного агента чужой компании, который имеет право запускать неизвестный код от вашего имени. Его лояльность определяется не договором с вами, а политикой, этикой и финансовым благополучием его реального хозяина.

Этот риск переводит угрозу из плоскости потери идеи в плоскость прямой потери активов, контроля и безопасности. Ваша криптобиржа, банковский софт или система управления критической инфраструктурой могут стать мишенью не потому, что хакеры взломали ваш фаервол, а потому что вы сами дали инструменту задание разработать новый модуль в вашей системе.

Риск №2. Чем плохо то, что модель обучается на ваших задачах? Прямой путь ноу-хау к конкурентам

Хорошо, допустим, руководство и сотрудники вашего ИИ-провайдера не будут сами использовать ваши ноу-хау. Но у них всё равно стоит задача сделать свой продукт самым крутым с минимальными затратами. Поэтому в какой-то момент они могут проигнорировать галочку, которую вы поставили «не обучать модель на моих задачах».

Итак, вы работаете с Claude или GPT, пишете код, решаете задачи. Ваш типичный диалог с ИИ — это текстовая задача и текстовый результат (готовый код, решение). Во время программирования модель запускает тесты. И в тот момент, когда все тесты пройдены, всё успешно компилируется, вы создали идеальный кусок датасета для обучения. У фирмы-разработчика ИИ есть текстовое описание задачи, и есть решение — утверждённый вами код, который проходит тесты.

Модель может извлечь из него не только синтаксис, но и логику, архитектурные приёмы и, самое главное, уникальные находки.

Теперь представьте: вы потратили годы, чтобы создать уникальный алгоритм или найти ту самую оптимизацию. Вы загружаете код в ИИ для отладки или рефакторинга. А через месяц ваш конкурент, задав похожий запрос, получает от той же LLM готовое решение с вашим ноу-хау. Он не увидит вашего имени — лишь сгенерированный код, использующий ваши алгоритмы и оптимизации, добытые потом и кровью. И всё это — практически бесплатно.

Риск №3: от выборочного анализа данных к тотальному шпионажу

Раньше утечка данных была точечной. Да, админ почтового сервиса теоретически мог прочитать ваше письмо, но человеческое желание совать свой нос в чужие дела ограничено бренными возможностями нашего тела, а подсматривать самому за миллионами ящиков вручную — нереально. С появлением ИИ ситуация меняется кардинально.

Теперь не составляет труда:

Проанализировать все переписки, все загруженные документы.
Автоматически выявлять шаблоны поведения, извлекать коммерчески ценную информацию, личные тайны.
Использовать эти данные для целевой рекламы, конкурентной разведки, политического давления или компрометации.

С этой точки зрения, политика многих государств на создание национальных ИИ-платформ и мессенджеров выглядит логично — это попытка удержать цифровой суверенитет и не позволить данным граждан утекать за рубеж для анализа иностранными разведками.

Риск №4: когда ИИ становится активным агентом в вашей системе

Представьте стандартный сценарий: вы программируете с помощью Claude или аналогичного инструмента, подключившись к своему рабочему серверу по SSH. Для анализа вашего кода, запуска тестов или сборки проекта ассистент не просто обменивается с вами текстом — он загружает и исполняет на вашей машине и удалённом сервере свои служебные программы. Это не теории заговора — откройте монитор ресурсов (top, htop) во время активной сессии, и вы увидите множество фоновых процессов с непонятными именами.

Мы миримся с этим, потому что использование ИИ-ассистента даёт реальное ускорение разработки. Но давайте посмотрим на эту техническую возможность с другой стороны.

Опасность не ограничивается пассивным сбором данных. Современные ИИ-ассистенты для программиста (вроде Claude Code или GitHub Copilot) — это не просто чат-боты. За кулисами они постоянно загружают и исполняют служебные модули на вашем компьютере или сервере для анализа кодовой базы, тестирования и т. д.

Мой личный опыт говорит, например, что тесты производительности go test -run ^$ -bench BanchName, которые Claude запускает в рамках чата, почти всегда показывают неверную информацию из-за того, что Claude параллельно запускает кучу непонятных утилит, которые нагружают процессор.

Это открывает ещё более тревожные возможности:

Индексация инфраструктуры. Владелец модели может (при желании) картографировать ваши серверы, находить уязвимости, критические данные.
Внедрение вредоносного кода. В обновлениях служебных программ теоретически может быть что угодно — от бэкдоров до скриптов, крадущих ключи шифрования или криптовалюту. История с вирусом Stuxnet, остановившим иранские центрифуги (Stuxnet), показывает, на что способна целенаправленная кибератака.
Обход политик безопасности. Сотрудник внутри компании-разработчика ИИ, имеющий доступ к «сырой» модели без ограничений, может использовать её для анализа собранных данных в злонамеренных целях.

Попробуйте во время активной работы ИИ-ассистента запустить top или htop — вы увидите множество фоновых процессов.

Для того, чтобы посмотреть иерархический список процессов, запущенных из-под вашего пользователя:

ps xf -u your_user_name

То что у меня запускает Cursor при работе через SSH

Это не фиксированный список. Временами проскакивают программы с самыми разными названиями. При каждом обновлении Cursor на мой сервер он загружает десятки и сотни мегабайт непонятного софта.

10408 ?        S      0:06 sshd-session: cursortest@notty
10410 ?        Ss     0:00  \_ bash
10442 ?        S      0:00      \_ bash
10690 ?        Sl     0:25          \_ /home/cursortest/.cursor-server/cursor-b3c95a7981bb3057526f1f865e8c307a9911ce00 command-shell --cli-data-dir /home/cursortest/.cursor-server/cli --parent-process-id 10442 --on-p
12505 ?        S      0:00          |   \_ sh /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/bin/cursor-server --connection-token=remotessh --accept-server-licen
12509 ?        Sl     2:54          |       \_ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb30
12573 ?        Sl     0:04          |           \_ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981
12602 ?        Sl     2:37          |           \_ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node --dns-result-order=ipv4first /home/cursortest/.cursor-server/
13367 ?        Sl     0:05          |           |   \_ tsserver[5.9.2]: syntax
13373 ?        Sl     0:07          |           |   \_ tsserver[5.9.2]: semantic
13409 ?        Sl     0:01          |           |   |   \_ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3
13384 ?        Sl     0:01          |           |   \_ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a
12629 ?        Sl     0:02          |           \_ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981
13085 ?        S      0:00          \_ sleep 180

Все эти программы висят всё время пока открыт Cursor.

Практические выводы: паранойя как новая норма

Игнорировать эти риски могут позволить себе только крупные корпорации с их локальными, изолированными моделями. Остальным стоит выработать новые правила цифровой гигиены.

Что можно сделать уже сейчас:

Строгое разделение сред.
- Рабочая среда с ИИ: для рутинных, типовых задач, работы с публичными библиотеками, изучения документации.
- Изолированная среда БЕЗ ИИ: для разработки ключевого продукта, уникальных алгоритмов, ноу-хау, финансовых моделей. Это должны быть отдельные директории, виртуальные машины или даже физические компьютеры без доступа к облачным ИИ.
Маскировка истинных целей. При работе с ИИ над чувствительными темами переформулируйте задачу. Пусть модель решает абстрактную математическую проблему или шаблонный пример, не понимая, какую реальную коммерческую ценность можно извлечь из этой идеи.
Контроль исполняемого кода. Если ИИ-ассистент требует установки агентов или исполнения кода, делайте это в песочницах (Docker, изолированные контейнеры), ограничивайте права доступа, внимательно мониторьте сетевую активность.
Осознанный выбор инструментов. Для проектов с высокой интеллектуальной ценностью рассматривайте локальные open-source модели (Llama, Mistral), работающие полностью на вашем железе, даже если они послабее облачных гигантов.

Да, этот подход отдаёт паранойей. Но в эпоху, когда наш «умный помощник» потенциально является идеальным шпионом и каналом утечки, лучше проявить осторожность. Как гласит старая истина в сфере информационной безопасности: «Параноик — это человек, владеющий всей информацией».

Будьте осторожны. В эпоху ИИ ваши идеи — это ваш главный актив. Защищайте их.

Комментарии (2)

axkur
16.12.2025 14:32
#29260918
База инфосека, фундамент zero trust, принцип - trust no one
В контексте компании (владельца "нейрогенератора"), один из главных источников роста которой - это качественная информация, передавать ей хоть что-то ценное - это реально безрассудно)))
И если чатовые модели ещё получают информацию дозируемо и контроллируемо,
как в меме "теперь Openai знает какой говнокод мы пишем",
то решения вроде Opencode и аналогичные, эйяй-агентские, в build/make-режимах,
могут выполнить любой код:
в базовом случае для проверки гипотезы/изучения api/попытки сборки софта/расчётов с использованием стороннего софта...
в антибазовом - стать точкой для RCE, со всеми возможными руткитами, удалением чувствительной информации, изучением инфраструктуры примитивным nmap-ом...
И ещё можно заметить в логах, если агент делает что-то в открытую... но, если его провайдер выключит вывод в логи "разведывательных" запросов - то это вилы-грабли...

Если сравнивать, это как консультант, которому вы сливаете код/хуки/методологию кусками (которые тяжелее анализировать, чем целостную картину),
против чувака с неограниченным мандатом + недетерминированным поведением, буквально джуна (по уровню осмысленности и ответственности), которому открыли доступ к руту на всех системах от виртуализации до балансировщиков и продакшена

Кажется, такая проблема не менее "опасная и вредная", чем прямой слив кода...
Он имеет отсроченное значение в гонке инноваций, а воздействие на инфру - прямое и гораздо более стремительное)))
Что может стать уникальной плоскостью для непредсказуемых (логическая бомба с неочевидным тригером) атак в критических инфраструктурах (асу тп/scada), особенно в совокупности с тем что происходит постоянный "анализ бизнеса", начинающаяся даже от злонамеренного сотрудника ai-провайдера, используего агентов как умножитель своих возможностей - как при разработке эксплойтов, так и при их внедрении у абонента...

Не вижу в статье паранойи: в ней больше качественного подхода к рискам,
но, и с подходом, "давайте совсем без эй-яй" я не могу согласиться - надо искать компромиссы, чтоб не проиграть гонку с конкурентами с обратной стороны:
например, локальные модели сейчас сильно слабее, чем "вендорские", но они ничего не сливают... их можно рассматривать в изолированных средах (и наверно не в доцкере, а на виртуалках), безусловно - с неменьшей осторожностью

Ещё хорошим моментом мог бы стать жёсткий аудит (как минимум на iso 27001 + soc2) ai-провайдера, другой вопрос - какого размера надо быть бизнесом, чтоб выдвинуть такое требование? Возможно, такая компания позволит себе и on-premise решение)))

Ну и в голову конечно приходит метод человек-как-исполнитель: бредогенератор говорит команды, человек пропускает их через свою голову, анализирует и решает какие из выполнять: да, это убивает скорость (особенно в пробах гипотез), но это режет очевидные и самые жёсткие атаки

С третьей стороны: есть то, что изначально написано нейро, с нуля,
да, вложено время в отладку, доводку, поиск "котлет среди мух" - лучших из худших решений,
но, по сути - код изначательно генеративный, известный ai-провайдеру...
Но не хочется наезжать на мысль "нечего терять", потому что в этом коде, опять же, могут быть креды или другая чувствительная информация...
- если упростить, получится, что дело в краже не кода, а контекста его исполнения...

В любом случае, эй-яй тяжело остановить, а значит надо думать над next-gen инженерной дисциплиной: систему контроллируемого взаимодействия, особенно, в условиях когда ассистент - это не коллега с ответственностью, а местами упоротый, потенциально нелояльный, сверхмощный системный компонент...

poige
16.12.2025 14:32
#29261358
который ещё Карл Маркс описал словами: «Обеспечьте 300 процентов прибыли, и капитал решительно пойдёт на любое преступление».
Томасу Джозефу Даннингу принадлежит широко известное высказывание о сути капитализма[7], процитированное Карлом Марксом в «Капитале» и потому часто ошибочно ему приписываемое:
«…

Источник — «Капитал», том I, глава 24 (по русским изданиям; в нем. — Bd. I, Kap. 24). Маркс цитирует Томаса Джозефа Даннинга, а не формулирует это от себя.

Классическая версия (по смыслу, близко к тексту):

«При 10 % капитала его можно применять повсюду; при 20 % он оживляется; при 50 % он положительно готов сломать себе голову; при 100 % он попирает все человеческие законы; при 300 % нет такого преступления, на которое он не рискнул бы, хотя бы под страхом виселицы.»

Ключевые моменты:

это цитата Даннинга, введённая Марксом как иллюстрация;

«300 %» фигурирует именно так, но:

не как «обеспечьте»,

не как самостоятельная формула Маркса,

без слова «решительно»,

и не в виде одной гладкой фразы.

…»
P. S. Что касается существа — тривиально и отдаёт «скандалами-интригами-расследованиями», причём на пустом месте. Компании, заинтересованные в отсутствии утечек своих данных, используют self-hosted модели при разработке, обработке и т. д..