Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль.
До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.
Но Google DeepMind, похоже, нашли лекарство. На днях в Nature вышла их статья, которая меняет правила игры. Они представили метод, заставляющий модели «думать» о картинках так же, как это делаем мы.
Я закопался в их пейпер, покрутил демки и примеры, и теперь готов рассказать, почему это не просто очередное «улучшение на 2%», а реальный шаг к AGI.
Что вообще произошло?
Если коротко: DeepMind доказали, что сырая мощь (больше слоев, больше данных) не лечит «слепоту» моделей к контексту.
Они выяснили, что разрыв между тем, как видит человек, и как видит машина — системный. Люди группируют объекты иерархически (это «еда», это «инструмент»), а нейронки цепляются за низкоуровневый шум (это «рябое», это «гладкое»).
Решение от DeepMind: Они создали процесс выравнивания (alignment) визуальных представлений, используя простой, но гениальный когнитивный тест — «Третий лишний» (Odd-One-Out).
Личный тест-драйв: как я ломал старое зрение
Поскольку исходный код их фреймворка AligNet только начинает появляться в открытом доступе (а веса моделей обещают чуть позже), я решил воспроизвести логику их экспериментов на текущих топовых моделях, чтобы понять масштаб бедствия.
Эксперимент «Яблоко раздора»
Суть метода DeepMind в триплетах. Я взял три изображения:
? Красное яблоко
? Зеленое яблоко
? Красный мяч
Как думаете, кто здесь лишний? Для вас, как для человека, ответ очевиден: лишний — мяч. Потому что два других объекта — это фрукты. Мы смотрим на суть.
Что видит стандартная Vision-модель (до фикса): Я прогнал эти эмбеддинги через стандартный CLIP. И знаете что? Для него «лишним» часто оказывается зеленое яблоко. Почему? Потому что для нейронки Красное яблоко и Красный мяч — это «круглые красные штуки». Текстура и цвет для неё важнее, чем семантическая категория «фрукт».
Что сделал DeepMind?
Они натренировали модели на миллионах таких триплетов, используя данные из когнитивной психологии (датасет THINGS). Грубо говоря, они били нейросеть по рукам каждый раз, когда она группировала объекты по цвету, а не по смыслу.
В результате их новая модель в тесте с яблоками уверенно выкидывает мяч.
Инсайт: Это звучит просто, но на масштабе это решает проблему «галлюцинаций зрения». Если робот-помощник видит на столе красную кружку и красную кнопку аварийной остановки, он больше не перепутает их из-за того, что «ну они же обе красные и блестящие».
Грабли и подводные камни
В процессе разбора пейпера и первых тестов этой концепции я наткнулся на несколько нюансов, о которых в пресс-релизах молчат:
Цена вопроса — синтетика. Чтобы обучить такую модель, DeepMind пришлось сгенерировать миллионы синтетических примеров «третьего лишнего». Реальных человеческих разметок не хватает. Это значит, что мы снова упираемся в качество синтетических данных. Если «учитель» ошибется, модель выучит бред.
Потеря креативности? Есть гипотеза, которую я пока не могу подтвердить цифрами, но она витает в воздухе: если мы жестко заставим модель видеть как человек, не потеряет ли она способность замечать паттерны, которые мы упускаем? Иногда «инопланетный» взгляд нейросети полезен (например, в медицине, где текстура опухоли важнее её формы).
Вычислительная стоимость. Инференс выровненных моделей стал чуть тяжелее, потому что пространство признаков стало сложнее и «плотнее».
Почему это важно прямо сейчас?
В той же пачке новостей промелькнула инфа про SIMA 2 — нового агента от DeepMind, который бегает в 3D-мирах. Так вот, эти две новости связаны напрямую.
Агенту в виртуальном (или реальном) мире бесполезно просто «распознавать пиксели». Ему нужно понимать аффордансы — то есть, как предметы используются.
Старая модель видит «коричневый цилиндр» (бревно) и «коричневый цилиндр» (ржавая труба) как одно и то же.
Новая модель, выровненная по-человечески, понимает: одно — дерево, другое — металл.
Вердикт за кофе ☕️
Хайп или польза? Однозначно польза, причем фундаментальная.
Это не очередная «генералка картинок», это фикс багов в самом фундаменте машинного зрения. Мы годами строили небоскребы на кривом фундаменте текстурного смещения. DeepMind наконец-то залили туда бетон человеческой логики.
Кому зайдет:
Тем, кто делает роботов и автономных агентов (мастхэв).
Разработчикам поиска по картинкам (search relevance взлетит).
Всем, кто устал от тупых ошибок Vision-моделей в продакшене.
Я уже жду, когда веса AligNet выложат в открытый доступ (или появятся дистиллированные версии на Hugging Face), чтобы вкрутить это в свой пайплайн классификации. Кажется, эра «чихуахуа-маффинов» подходит к концу.
Источник: DeepMind улучшает восприятие моделей для AGI
Привет! Меня зовут Alsok, я разработчик и автор Telegram-канала "Breaking AI News", в котором каждый день я публикую несколько коротких кейсов и инструментов из мира ИИ. Подписывайтесь, чтобы экономить время и получать только практику.
Комментарии (3)

VAF34
18.11.2025 06:58Мне все время бросается в глаза принципиальное отличие обучения сетей и обучение человека. Возьмем новорожденного и попытаемся проследить его обучение. Самое интересное здесь наличие предела. Ослиного моста в терминологии средневековой бурсы.
pavlushk0
Что значит "переписали"? Это же настоящий искусственный интелект, он думает, решает задачи по матике, скоро заменит программистов и вообще всех! Переписывание это убийство!
alsok1 Автор
Ну уж и всех...