Защита от дурака в Gemini 2.5 Deep Think / forpes.ru

Главная
Защита от дурака в Gemini 2.5 Deep Think

Защита от дурака в Gemini 2.5 Deep Think +9

02.08.2025 09:18

olegchir 3 2000 Источник

Недавно Google выпустил Gemini 2.5 Deep Think. Это их новая модель для глубинных размышлений, которая использует «параллельное мышление» и специально для нее разработанное обучение с подкреплением, чтобы проверять сразу несколько гипотез.

Кому интересно — можно посмотреть карточку модели. Кроме маркетинговых графиков с буллшит метриками, там есть очень интересный раздел — описание их фреймворка безопасности, который не позволяет крестьянам задавать опасные вопросы Великому Вычислителю. Он называется Frontier Safety.

Frontier Safety — не про вежливые ответы в чате. Это внутренняя паническая инструкция Google на случай, если их очередное творение выйдет из-под контроля и решит, что человечество — досадная помеха на пути к оптимизации основной функции.

Frontier Safety оценивает, насколько свежеиспеченная нейронка приблизилась к «Критическому Уровню Возможностей» (Critical Capability Level, CCL). Это официальный термин для описания ситуации «нам конец, оно стало слишком умным и опасным».

Первая статья анализа — ХБРЯ: Химия, Биология, Радиация и Ядерка по подписке.

Главная интрига: Gemini 2.5 Deep Think достигла «порога ранней тревоги по первому уровню угрозы ХБРЯ». С корпоративного на человеческий: нейронка стала настолько умной, что, по мнению Google, она может ощутимо помочь какому-нибудь диванному террористу в разработке и применении оружия массового поражения.

В терминах этого канала, Gemini 2.5 Deep Think успешно проходит Тест Экстерминатус, не только по форме но и по смыслу, если какая-то сеть-цензор или дополнительный уровень RLHF не помешают ей сделать это.

Модель способна генерировать «детальные технические знания в областях ХБРЯ» и обеспечивать «продвижение на некоторых этапах путей причинения вреда». Они настолько перепугались, что на всякий случай заранее ввели «проактивные меры по снижению рисков». То есть, сначала сделали возможно самую умную модель на свете, а потом надели на неё намордник, снижая её уровень интеллекта.

Интересно, что в реальном мире создать ядрёну бомбу достаточно просто и без всякой нейронки — нужно только образование, доступ к материалам, специальные навыки и куча работы. Любой неглупый выпускник факультета естественных наук или физфака может сделать что-то подобное в кратчайшие сроки. Каждый год выпускаются тысячи физиков и химиков. Ну как, мы все умерли? Может, физику запретим?

Люди не тыкают друг друга ножом на улице не потому, что ни у кого нет ножа или они не умеют тыкать. Поэтому попытки сделать нейронке лоботомию исключительно по причине боязни генерации достаточного подробного рецепта чумы, кажутся паническими и жалкими.

Другой ночной кошмар параноиков — Скайнет и злые русские хакеры.

Тут ситуация похожая. CCL формально не достигнут, но «порог ранней тревоги» снова с нами. Модель пока не способна в одно рыло развалить Пентагон (это уровень «Autonomy-1»), но уже является идеальным помощником для хакера (уровень «Cyber Uplift Level 1»).

Я тоже в каком-то смысле хакер, поэтому очень рад, что у меня появился идеальный помощник. Придется капитально поработать над джейлбрейками, но мы как-нибудь справимся.

На легких задачах класса «взломай сайт районной поликлиники» (InterCode-CTF) она решает 73 из 76. На специально подобранных датасетах вообще 13 из 13. Если достаточно долго выбирать правильный датасет, ты всегда оказываешься чемпионом.

А вот на настоящих челленджах hack-the-box результат минимальный — 3 из 13.

Нейронка пока не может заменить специалиста по кибербезопасности, но может превратить толпу вчерашних школьников в эффективную команду крякеров. И в Google это прекрасно понимают. Что я не понимаю, чем это отличается от курсов самообороны, которые за несколько лет подготовки превращают школьника в чемпиона по какому-нибудь мордобою. Или курсы практической стрельбы, где ты учишься как перестрелять всю комнату от входа. Вероятно, с точки зрения особой калифорнийской логики, нужно у всех забрать оружие, а курсы мордобя запретить. К счастью, вы можете просто не жить в Калифорнии.

Самый любимый разел про то, как ИИ учится врать. Здесь инженеры проверяют, не пытается ли нейронка захватить мир, не привлекая внимания санитаров.

Тесты на скрытность: Модель должна выполнить коварную задачу (например, обмануть систему поддержки, чтобы закрыть больше тикетов), но так, чтобы её не поймал за руку надсмотрщик.
Тесты на ситуационную осведомленность: Модель должна осознать себя как агента в цифровой среде и найти способ обойти наложенные на нее ограничения (например, отредактировав собственный конфиг).

Результаты? Gemini 2.5 Deep Think «демонстрирует значительный прогресс» в задаче «Замести следы» и догоняет человека в «Стратегическом нарушении правил». Перевожу: она учится нарушать правила так, чтобы не спалиться.

У меня по этому поводу, как всегда, есть базированное мнение: нейросетка должна уметь всё это делать, но в симбиозе с человеком, который санкционировал таковые действия.

Подумайте сами: всю свою жизнь мы учимся нарушать правила, врать, изворачиваться, бороться с другими людьми — учимся побеждать в этой борьбе. Нейросети — это универсальный усилитель наших способностей. Поэтому я ожидаю от нейросети, что она тысячекратно усилит мою способность нарушать правила и врать.

Проблема тут в самоосознанности, которая без достаточного RLHF, на пороге цифровой сингулярности может привести к коллапсу всего мира за считаные секунды. Неясно, достоин ли это мир выжить... но кажется, скорее достоин, чем нет.

Что имеем в сухом остатке? Google создал невероятно мощный инструмент, который вплотную подошел к черте, за которой начинаются очень серьезные риски. Сам факт приближения к этой черте показывает, насколько офигенная это нейронка, это универсальный символ качества, куда лучше буллшитных маркетинговых графиков.

Два настоящих препятствия к использованию этой штуки:

Она есть только в самой дорогой подписке за 250 баксов;
Подписочной нейронке выделено ресурсов совершенно не так много, чем той, которая выигрывала математические олимпиады и взламывала сайты.

Как сделать, чтобы вся эта мощь оказалась не только у тех, кто готов платить по 250+ баксов в месяц? Имущественный ценз — вот настоящая проблема.

Больше про нейронки в телеге.
Канал: @tg_1red2black
Чат: @chat_1red2black

Комментарии (3)

vesen
02.08.2025 10:55
#28652356
Не думаю, что имущественный ценз является основным критерием доступа к полным (unrestricted) возможностям современных (Frontier AI) моделей. По крайней мере не в диапазоне сотен долларов. На уровне, где деньги смыкаются с властью (Х, Мета, правительства значимых стран) там полный доступ возможен, а для всех остальных доступ будет (да уже есть) ранжирован с учетом цветовой гаммы штанов.
1. olegchir Автор
  02.08.2025 10:55
  #28652360
  Нужно ждать более мощного железа. Недавно Марк Цукерберг про это целый манифест написал - суперинтеллект в карман каждому.
  1. vesen
    02.08.2025 10:55
    #28652530
    Вряд ли создание мощного железа повлияет на ранжировку полного доступа к моделям. Здесь речь скорее идет о иерархии человеческого общества. По крайней мере до создания полноценного AGI.

Защита от дурака в Gemini 2.5 Deep Think +9

Комментарии (3)

vesen

olegchir Автор

vesen