
Недавно в журнале Nature вышла статья, которая заставила нас ахнуть: оказывается, современные нейросети начинают думать о мире почти как люди! Учёные из Китая исследовали, как большие языковые модели (LLM) и мультимодальные модели (MLLM) формируют представления об объектах, и сравнили их с человеческим мышлением. Мы разобрали эту работу и рассказываем вам, почему она реально крутая, простым языком. Погнали!
Что за исследование?
Представьте, что вы смотрите на яблоко, собаку и стул. Вы сразу понимаете: яблоко и собака — это что‑то живое, а стул — нет. Собака ближе к кошке, чем к машине. Эта способность группировать и сравнивать объекты — основа нашего мышления. Учёные задались вопросом: могут ли нейросети, такие как ChatGPT или Gemini, делать то же самое? И если да, насколько их «мысли» похожи на наши?
Чтобы это проверить, исследователи собрали 4,7 миллиона ответов на задачу «найди лишнее» (как в детской игре). Они взяли базу из 1854 объектов — от животных до техники — и составили миллионы триплетов (например, «альпака, антилопа, доспехи»). Задача: выбрать, какой объект лишний. Ответы собирали от трёх групп:
Люди — тысячи участников с платформы Amazon Mechanical Turk.
Языковая модель (ChatGPT-3.5) — она видела только текстовые описания объектов (например, «альпака — одомашненная лама с шелковистой шерстью»).
Мультимодальная модель (Gemini ProVision) — она смотрела на картинки объектов.
Из этих ответов учёные построили «ментальные карты» — математические представления, где каждый объект — это точка в многомерном пространстве, а похожие объекты находятся ближе друг к другу. И вот что они нашли.
Ключевые находки
Нейросети думают как люди
Учёные использовали метод SPOS (Sparse Positive Similarity Embedding), чтобы превратить миллионы ответов в 66-мерные карты. Это как координаты для каждого объекта (например, «кот» или «телескоп») в пространстве смыслов. И вот сюрприз: эти карты оказались стабильными и предсказуемыми. Нейросети не просто случайно выбирали ответы — они следовали логике, похожей на человеческую.
Ещё круче: эти 66 измерений оказались понятными для человека. Например, одно измерение объединяло животных, другое — еду, третье — технику. Gemini, которая видела картинки, даже выделила визуальные категории вроде «драгоценности» или «много мелких объектов» — то, чего текстовая ChatGPT не могла. Получается, нейросети сами, без подсказок, научились группировать объекты по смыслу, как мы!
Мультимодальные модели ближе к человеку
Учёные сравнили ментальные карты людей, ChatGPT и Gemini с помощью метода RSA (анализ репрезентативного сходства). Это так же, как проверить, насколько две карты похожи. Результаты:
Gemini круче ChatGPT: Мультимодальная модель, которая видит картинки, оказалась намного ближе к человеческому мышлению, чем текстовая ChatGPT.
Люди — мастера визуала: Мы лучше улавливаем цвета, формы и текстуры (например, «красное» или «округлое»). У ChatGPT с этим проблемы, а Gemini уже ближе к нам, но всё ещё не дотягивает.
ChatGPT — педант: Текстовая модель создаёт очень детальные категории, вроде «замороженные десерты» или «домашний скот», там, где мы просто говорим «еда» или «животные».
Нейросети и мозг работают похоже
Самое ошеломляющее: учёные сравнили ментальные карты нейросетей с активностью человеческого мозга! Они использовали данные fMRI (функциональной магнитно‑резонансной томографии) из проекта Natural Scenes Dataset. Людям показывали тысячи картинок, а их мозговую активность сканировали. Оказалось, что объекты, которые Gemini считает похожими, вызывают похожие реакции в зрительной коре мозга — особенно в областях, отвечающих за лица (FFA), тела (EBA) и сцены (PPA, RSC).
Это не просто совпадение. Это доказывает, что мультимодальные нейросети формируют представления, похожие на человеческие на уровне структуры. Словно ИИ и наш мозг, идя разными путями, пришли к похожим способам понимать мир.
Это исследование показывает, что нейросети, особенно мультимодальные, учатся видеть мир почти как мы. Они не просто имитируют ответы, а строят осмысленные категории — животные, еда, техника. Это открывает путь к ИИ, который будет интуитивно понимать нас, потому что его «взгляд» на мир похож на наш.
Помощь в изучении мозга
Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.
Философский вопрос
Что такое понимание? Нужен ли биологический мозг, чтобы «понимать» мир? Исследование говорит, что нет — достаточно сложной нейросети и кучи данных. Это размывает грань между искусственным и человеческим интеллектом и заставляет задуматься: где проходит эта граница?
Недостатки исследования
Как и любая научная работа, эта не идеальна. Вот что отметили сами авторы и мы:
Мало моделей: Учёные тестировали только ChatGPT-3.5 и Gemini ProVision. Это старые модели, и хотя результаты, вероятно, применимы к новым, для полной уверенности нужно больше тестов.
Человеческие описания: ChatGPT работала с текстовыми описаниями из базы WordNet, которые уже структурированы людьми. Получается, модель могла просто «отражать» человеческие категории, а не создавать их с нуля.
Корреляция ≠ тождество: Да, карты нейросетей похожи на мозговые, но это не значит, что они работают одинаково. Мозг — это электрохимия и миллионы лет эволюции, а ИИ — математическая оптимизация на чипах.
Чёрный ящик: Метод SPOS показал, какие категории использует ИИ (еда, животные), но не объясняет, как они появились внутри сети.
Заключение
Этоисследование — настоящий прорыв. Оно показывает, что мультимодальные нейросети, такие как Gemini, формируют представления об объектах, которые пугающе похожи на человеческие — и на уровне поведения, и на уровне активности мозга. Это не значит, что ИИ уже стал человеком, но он явно движется в этом направлении. Мы теперь знаем, что нейросети могут сами, без подсказок, выстраивать осмысленные категории, как мы. Это открывает двери к ИИ, который будет понимать нас лучше, и к новым открытиям о нашем собственном мышлении.
Но вопросов ещё много. Как нейросети приходят к этим категориям? Насколько универсальны их «мысли»? И где грань между имитацией и настоящим пониманием? Мы живём в невероятное время, когда ИИ становится всё ближе к нам, и такие исследования — это шаги к разгадке.
Присоединяйтесь к нашему тг-каналу: обсуждаем свежие исследования, делимся инсайтами и разбираем, как ИИ меняет мир.
Комментарии (20)
AlexRihter9690
11.07.2025 20:41Учитывая, что даже современные ллмки могут застрять в бесконечном цикле повторения, сомневаюсь
ioleynikov
11.07.2025 20:41Создание иерархии понятий сущностей это малая часть дела. Это было еще в WordNet Важно знать как разные сущности могут быть связаны друг с другом. Такая информация имеется в LLM. Для AGI осталось решить всего несколько задач: 1) создать ясную, понятную, прозрачную систему логического вывода по образцу языка Prolog на базах знаний нейросетевых моделей. 2) добавить в контуры выводов сетей эмоциональную, моральную, этическую оценку, как элемент самосознания, самооценки. 3) добавить глубокий механизмы поиска ассоциативности по всем элементам баз знаний. 4) усилит элемент креативности, самостоятельного поиска новых идей и доказательств их состоятельности. Только в этом случае ИИ станет полноценным помощником людей.
dkosolobov
11.07.2025 20:41Первая строка вводит в заблуждение: статья опубликована в nature machine intelligence и это совсем не то же, что nature, хоть и принадлежит тому же издателю. Более того, судя по всему журнал очень средней руки и в нем публикуются, в том числе, чтобы как раз можно было сказать "у нас статья в nature machine intelligence", а люди (как автор например) услышали бы "у нас статья в nature".
Asterris
11.07.2025 20:41Ну, тот факт, что нейросети видят невидимые паттерны известен ещё с момента их изобретения. А тот факт, что они классифицируют их "по-человечески" типа "еда" и "животные" вовсе ни о чем не говорит. Типичный классификатор в диффузной сетке типа StableDiffusion увидит типа кошку на полностью зашумленной картинке с вероятностью 10% - ну и для классификации просто будет выбран этот первый, самый вероятный вариант. Плюс нейросеть ничего не знает об объектах реального мира - она просто сопоставляет набор пикселей с известными ей паттернами.
Поэтому нельзя работу vision-сеток сравнивать с бинокулярным человеческим зрением, которое видит глубину и понимает суть объектов через другие органы чувств в том числе.
Интересно было бы воспроизвести аналогичный эксперимент на людях - показывать им рандомные абстрактные наборы пятен, типа тестов Роршаха - чтобы люди не могли их узнать напрямую, а просто анализировали бы визуальные паттерны. И потом сравнить результаты с ответами ИИ.
UIfbiorn
Не, это уже совсем. Нейросети не могут использовать те же принципы работы, что и мозг.
s-v
Аргументируете? Почему не могут?
Kdg88
Потому что в мозге нейроны образуют трехмерную самоизменяющуюся структуру с различными специализациями. А ЛЛМ это просто дохрена сложный алгоритм поисковик по векторной базе данных.
UIfbiorn
Единственное, я бы сказал, что структуры, потому что в мозге организация нейронов в каждом из полей отлична от других.
digrobot
Не имеет значения, какую структуру образуют нейроны - важно, какой алгоритм они реализуют.
UIfbiorn
Важно, потому что для каждого функционала своя структура
digrobot
В искусственных нейросетях для каждого функционала свои веса связей, что равноценно изменяющейся структуре.
Kdg88
Веса связей нужны для того чтоб на запрос 'напиши функцию на питоне' вам не прилетело описание параболы нарисованое на змейке. Ну серьезно, спросите у гпт разницу между нейронами человека и нейросети, думаю его ответ будет более авторитетным. И про алгоритмы которые реализуют нейроны, и что случится даже если нейросеть обучат исключительно самые квалифицированные ученые со всех областей без лишнего мусора.
digrobot
Зачем мне спрашивать про разницу между крылом вороны и самолета?
Kdg88
Например для того чтобы сравнивать равноценость специализации нейронов мозга с нейронами нейронок. Ну а еще проще - скопируйте этот тред любимой ллм и спросите к чему был вышеупомянутый совет.
Politura
Нейроны которого образут сложную структуру с различными специализациями.
И, честно говоря, вы бы матчасть подучили. Чтоб понять в чем разница между векторной базой и LLM, прежде чем пулять фразами.
Kdg88
Вы бы воспользовались своим советом. Мне лень на каждый чих расписывать разницу между нейрорами мозга и ллм в деталях. Если действительно хотите подискутировать, окей - давайте свою точку зрения на схожесть в механике работы.
dkosolobov
(Не туда ответил, извините)