
Помните то самое платье?
В 2015 году интернет раскололся пополам: одни клялись, что оно бело-золотое, другие — мол, сине-черное. Люди ругались в комментах, крутили яркость на мониторе, а самые умные врубали пипетку в Paint. Само платье, кстати, оказалось сине-черным, но дело вообще не в этом.
Проблема в том, что двое условных человека смотрели на одни и те же пиксели и видели разные цвета. Не интерпретировали по-разному, не спорили о вкусах — буквально видели разное. И оба лагеря не ошибались: сетчатка у всех отрабатывала штатно, а дальтонизм тут вообще ни при чем (поскольку речь не об оттенках одного цвета).
Последние лет двадцать нейронаука потихоньку сходится на одной неуютной идее: вы никогда не видели реальность напрямую. Ни платье, ни эту статью, ни собственные руки. Все, что вы воспринимаете прямо сейчас, догадка вашего мозга о том, что, вероятно, находится снаружи. Образованная догадка, обычно очень точная, но все же догадка.
Эта концепция называется байесовским мозгом, и я хочу о ней рассказать. Потому что, во-первых, она красиво объясняет кучу странных вещей: от оптических иллюзий до галлюцинаций и эффекта плацебо.
А во-вторых, ровно по такому же принципу работает половина современного машинного обучения. Stable Diffusion, которая дорисовывает картинку из шума, Языковые модели, которые предсказывают следующее слово. Автоэнкодеры, world models, диффузионки — все это, если снять маркетинговую обертку, машины, которые делают то же самое, что и ваш мозг прямо сейчас. Гадают.
Так что начнем с мозга, а закончим нейросетями, и по дороге, надеюсь, вы начнете чуть меньше доверять собственным глазам.
Содержание
Как мозг угадывает мир
Гельмгольц в темноте
Представьте, что вас посадили в абсолютно темную комнату без окон и дверей. Вам запрещено выходить, а единственная связь с внешним миром — пучок проводов, торчащих из стены. По ним время от времени пробегают электрические импульсы. Ваша задача по импульсам понять, что происходит снаружи. Идет ли там дождь, стоит ли кто-то под окном, какого цвета небо и так далее.
Звучит как завязка плохого сайфай-фанфика.
Но это ровно та ситуация, в которой находится ваш мозг прямо сейчас и, в принципе, всегда.

Мозг наглухо заперт в черепной коробке, и у него фактически нет глаз или ушей, они снаружи. Все, что до него доходит, — электрохимические импульсы по нервным волокнам от сетчатки, по улитке уха, от рецепторов кожи. Сами импульсы при этом относительно одинаковые: маленькие всплески напряжения. Там нет ни цвета, ни звука, ни боли — все это мозг достраивает сам.
Первым данную проблему всерьез сформулировал немецкий физик и физиолог Герман фон Гельмгольц еще в XIX веке.
Он назвал восприятие мозга бессознательным умозаключением. Мозг, по его мысли, решает задачу: по косвенным данным догадывается о причинах этих сигналов. Что во внешнем мире вероятнее всего вызвало именно такой паттерн импульсов?
По классике идея пролежала на полке примерно сто пятьдесят лет. Но чтобы понимать глубину вопроса, обратимся к еще более ранним зачаткам сегодняшней теории.
Байес на пальцах
В XVIII веке жил обычный английский священник, по совместительству любитель теории вероятностей, со звучным именем Томас Байес. Его теорема — кусок арифметики, который описывает, как рационально обновлять свои убеждения, получив новые данные.
Если выразить это формулой получилось бы что-то вроде:
Насколько стоит верить в гипотезу после получения новых данных = насколько мы в нее верили до + насколько эти данные в нее вписываются.
Пример: вы лежите ночью в кровати — вдруг на кухне что-то шуршит. Гипотез две — кот или грабитель. До шуршания вы в грабителя особо не верили: район спокойный, дверь заперта, а вы живете тут десять лет, к тому же у вас есть кот, и он регулярно проверяет, не завалялось ли чего в миске.
Поэтому ваша первая мысль — «кот шуршит». Это и есть байесовский вывод: вы скомбинировали априорные знания (priors) с новыми данными (в мою квартиру ночью обычно никто не лезет, а кот часто шара шуршит) и выбрали наиболее вероятное объяснение.
Теперь поменяем вводные.
Тот же звук, но накануне по району прошла волна краж, соседи писали в чат, что прошлой ночью был странный звук, а утром пропал телевизор в гостиной, и вы легли спать встревоженным. Априорная вероятность грабителя резко выросла, и вдруг раздается шуршание на кухне. Тот же звук вы уже интерпретируете иначе: ноги холодеют, рука тянется к телефону.
Восприятие оказалось другим, потому что мозг комбинирует сенсорный сигнал со своими ожиданиями. Это не баг, это единственный способ вообще что-то понять про мир: сам по себе звук многозначен, а ожидания подсказывают, какое из объяснений правдоподобнее.
Байесовский мозг — гипотеза о том, что мозг проделывает такую операцию постоянно и на всех уровнях. От распознавания букв на экране до понимания намерений собеседника.
Поток восприятия всегда идет сверху вниз
Картина работы мозга по умолчанию выглядит так: сигнал входит через органы чувств, поднимается по иерархии зон коры (сначала простые признаки — линии, края; потом сложнее — формы; затем детали, лица и так далее), а как итог в финале появляется готовое восприятие. Снизу вверх — от данных к смыслу.
Байесовский подход переворачивает эту картину практически наизнанку.
Основной поток информации в коре идет сверху вниз. Высокие уровни постоянно посылают нижним свои предсказания: «я ожидаю здесь увидеть край под таким углом», «я ожидаю здесь услышать продолжение фразы вот таким словом», «я ожидаю, что моя рука через полсекунды будет вот тут». Нижние уровни сравнивают эти предсказания с реальным сенсорным входом и отправляют наверх только ошибку. То есть то, что не совпало.
Если предсказание идеально совпало с сигналом — наверх не идет почти ничего. Мозг в этот момент работает в режиме «все по плану, продолжаем». Если совпало плохо, вверх летит ошибка и высокие уровни корректируют свою модель мира.
И это невероятно экономичная схема, которой позавидует любой высокоэффективный ЦОД. Мозгу не надо каждый миг заново строить картинку мира из пикселей — у него уже есть модель, он только сверяет ее с реальностью и обновляет по мере необходимости. Примерно как видеокодек, который передает не каждый кадр целиком, а только разницу между соседними кадрами.
Отсюда можно сделать неприятный вывод. То, что вы сейчас «видите», — в основном, предсказание вашего мозга о том, что он должен видеть. Сенсорные данные только подправляют это предсказание там, где оно ошибается. Большую часть времени вы смотрите не на мир, а на собственную и хорошо откалиброванную модель мира.

Есть еще один важный параметр.
Мозг оценивает и то, что ему сообщают сенсоры, но и насколько этому сообщению в принципе можно верить. В нейронауке это называется точностью (precision) — весом, с которым ошибка предсказания влияет на обновление модели.
Интуитивно это легко представить. Вы идете по подозрительно темной улице, зрение работает плохо, и мозг автоматически снижает доверие к глазам, зато повышает доверие к слуху и к своим ожиданиям. Отсюда классическое ощущение, что в темноте «что-то мерещится»: мозг подставляет на место размытых сенсорных данных свои априорные знания и любой куст может на секунду стать зловещим человеком.
Или другой пример.
Если вы очень ждете в гости друга и слышите чьи-то шаги на лестнице, вы скорее всего узнаете в этом звуке его шаги, даже если это соседский ребенок в подъезде. Большое ожидание получило большой вес, слабый сенсорный сигнал — маленький, и мозг склеил восприятие в пользу ожидания.
Precision — это ручка громкости на каждом уровне иерархии. И, как мы увидим дальше, если эту ручку крутануть не туда, начинается интересное: от галлюцинаций до аутизма.
И давайте соберем последний кусочек механики, чтобы сломать ваши представления уже окончательно.
Если мозг постоянно минимизирует ошибку предсказания, у него есть два способа это делать:
Первый — обновить модель под реальность. Это мы и называем восприятием: мир такой, какой он есть, я подстраиваю свои представления.
Второй способ — изменить реальность под модель, то есть действовать.
Эта идея называется активным выводом (active inference), и звучит она странновато, пока не вдумаешься.
Когда вы тянетесь к чашке кофе, ваш мозг, согласно теории, не посылает команду «двинуть рукой туда-то». Он предсказывает, что рука сейчас будет у чашки, а тело минимизирует ошибку между предсказанием и реальным положением руки, то есть двигается в нужную сторону. Движение — это ошибка предсказания, которую тело гасит, приводя себя к ожидаемому состоянию.
Звучит как перевернутая логика, и у нее есть красивое следствие: восприятие и действие — одна и та же операция с разных сторон, а не два разных действия. Мозг все время что-то предсказывает и либо поправляет гипотезу, либо подправляет мир.
Контролируемая галлюцинация
Соберем все вместе. Мозг сидит в темноте черепа. У него есть накопленная модель мира: огромная свалка ожиданий, усвоенных за жизнь: как выглядят лица, как звучит речь, как ведет себя чашка, если ее уронить. На основе этой модели он постоянно предсказывает, что должно происходить на входе сенсоров. Сенсоры сообщают ошибки. Модель обновляется, а иногда мир подстраивается под модель через действие.
Британский нейроученый Анил Сет предложил формулировку, которая, по-моему, лучше всего передает суть:
Восприятие — это контролируемая галлюцинация.
Галлюцинация — потому что картинка мира генерируется мозгом изнутри, а не приходит снаружи готовой. Контролируемая — потому что ее постоянно сверяют с сенсорным входом и не дают уйти в отрыв. Разница между обычным восприятием и, скажем, галлюцинацией шизофреника не в принципе работы, а в степени контроля.
И тут возникает закономерный вопрос: а если мозг в основе своей — это машина, предсказывающая сенсорный вход и обновляющая внутреннюю модель мира по ошибкам?.. Не напоминает ли это кое-что еще?
Машины, которые предсказывают
Снова немножко истории, начала 1990-х. Джеффри Хинтон — тот самый, которого сейчас называют крестным отцом ИИ, который вместе с Питером Даяном и коллегами работает над вопросом, как нейросеть может научиться строить внутреннюю модель мира без учителя. То есть без размеченных данных или правильных ответов, как, по идее, учится мозг ребенка.
И они пришли к архитектуре, которую называют машиной Гельмгольца, в честь того самого физика из XIX века.
Объясняю идею. У сети идут два встречных потока:
Один — снизу вверх, распознающий: он берет сырые данные (скажем, картинку) и пытается понять, какие скрытые факторы ее породили.
Второй — сверху вниз, генеративный: он берет эти скрытые факторы и пытается восстановить из них исходные данные.
Сеть тренируют так, чтобы эти два потока согласовывались: если распознающая часть правильно поняла, что на картинке кот, то генеративная часть из кота должна уметь нарисовать похожую картинку. Механизм называется предиктивным кодированием, Модель учится не запоминать данные, а объяснять их, то есть находить причины, из которых они могли получиться. Ровно то, чем по Гельмгольцу занимается мозг.
Гельмгольц-машина в свое время не выстрелила — тупо не хватило вычислительных мощностей и данных. Но, как видим, ее идейные потомки сейчас везде.

Году в 2013-м выходит работа Кингма и Веллинга про вариационные автоэнкодеры (VAE) — прямое развитие той самой идеи, только уже на современном уровне.
Принцип до смешного похож на предиктивное кодирование в мозге.
VAE — сеть, которая берет вход (картинку, звук, что угодно), сжимает его в маленькое внутреннее представление (несколько десятков чисел), а потом пытается из этих чисел восстановить исходный вход. Если восстановление получилось плохим, сеть считает ошибку и подкручивает веса.
Что тут важно: эти несколько десятков чисел во внутреннем слое и есть модель мира, которую сеть построила сама. Она вынуждена сжать все существенное о картинке в компактную догадку, потому что пропускного канала мало, и именно в сжатии рождается понимание: сеть начинает выделять осмысленные оси вариаций — «ракурс»; «освещение»; «возраст лица» — потому что иначе не удастся потом все восстановить.
Мозг делает, по сути, то же самое. Он не станет хранить все, что увидел за день, он хранит сжатую модель мира, из которой может при необходимости догенерировать детали. Когда вы закрываете глаза и представляете свою кухню, вы запускаете генеративную модель, а не воспроизводите фотографию.
Теперь о самом зрелищном. Stable Diffusion, DALL-E, Midjourney — это диффузионные модели, с жутко байесовской логикой.
Диффузионные модели — это тип нейросетей, которые учатся создавать данные, чаще всего изображения, через обратный процесс шума. Модель сначала учится, как картинка постепенно превращается в случайный шум. А потом обучается делать обратное: брать шум и шаг за шагом «очищать» его, пока из хаоса не появится осмысленное изображение.
Когда вы просите у Stable Diffusion «астронавта верхом на лошади», сеть начинает с чистого шума и делает десятки итераций, на каждой из которых угадывает, как этот шум должен выглядеть чуть менее шумно, чтобы в итоге стать астронавтом на лошади. Это почти буквально то, что Анил Сет называет контролируемой галлюцинацией: модель генерирует картинку изнутри, опираясь на накопленные априорные знания о том, как выглядит мир, но направляется текстовой подсказкой, которая работает как ограничение.
Параллель с мозгом тут, если честно, почти неприличная. Когда вы смотрите в темноте на смутный силуэт и узнаете в нем друга, вы делаете ровно то же самое. Берете зашумленный сенсорный вход, прогоняете через накопленную модель мира и шаг за шагом доводите до узнаваемого образа.

Теперь о LLM.
GPT и его родственники устроены так просто, что это даже кажется слишком простым для громкого слова ИИ (хотя и не ИИ это вовсе, маркетинг сделал свое дело): все, что они делают, — предсказывают следующий токен в последовательности. Миллиарды раз на терабайтах текста. И в принципе все.
Но вот что нам любопытно: именно задача «предскажи следующее» заставляет модель выучить, по сути, модель мира. Чтобы правильно угадать следующее слово в фразе «чашка упала со стола и…», надо знать, что чашки падают вниз, а не вверх, что они обычно бьются, что это звучит как звон и что полетят осколки.
Предсказание следующего слова — предсказание того, как развивается мир.
Здесь начинается интересная заруба полемика. Одни исследователи (включая Анила Сета и часть лаборатории Фристона) считают, что LLM реализуют предиктивное кодирование в почти чистом виде, на языковом уровне. Другие возражают: мозг предсказывает сенсорный ввод, связанный с реальным телом в реальном мире, а LLM предсказывает токены, оторванные от всякого опыта. Это, мол, имитация предиктивного кодирования без его сути.
Спор пока не решен, но сам факт, что он идет всерьез, кое о чем говорит.
Идем далее по хронологии.
В 2018 году Дэвид Ха и Юрген Шмидхубер публикуют работу с лаконичным названием World Models. Идея: чтобы агент хорошо действовал в мире, ему надо сначала построить внутреннюю модель этого мира, а потом внутри этой модели тренироваться грезить о возможных будущих и учиться на этих грезах.
Агент у них играл в видеоигры.
Сначала он просто смотрел, как мир себя ведет, и строил генеративную модель среды — такую же, по сути, как VAE, только умеющую предсказывать, что будет на следующем кадре. А потом агент отключался от настоящей игры и тренировался внутри собственной головы, на симуляциях, которые генерировала его же модель. И когда его возвращали в настоящую игру, там он уже умел в нее играть.
Случилась практически буквальная реализация активного вывода первой главы этой статьи. Агент имеет модель мира, предсказывает последствия своих действий, выбирает действия так, чтобы прийти в ожидаемые состояния. И что еще ближе к мозгу: он учится частично «во сне», прогоняя сценарии во внутренней симуляции. Есть довольно настойчивая гипотеза, что именно этим занимается мозг во время сна: докручивает модели мира на сгенерированных данных.
Общий знаменатель
Если отойти на шаг назад и посмотреть на все эти архитектуры вместе (VAE, диффузионки, LLM, world models), видно ну примерно одно и то же. Все они так или иначе учатся генеративным моделям: внутренним представлениям о том, как устроены данные, из которых можно эти данные реконструировать, предсказывать или продолжать.
Это ровно то, что предполагает байесовская теория про мозг. Мозг (повторю раз так пятый) — генеративная модель мира, которая предсказывает сенсорный вход и обновляется по ошибкам.
Машинное обучение последних пятнадцати лет — это в огромной степени построение таких же генеративных моделей, только в кремнии, без всяких биожидкостей.
Совпадение?
Да нет, конечно. Как мы видели, многие из этих архитектур выросли напрямую из попыток формализовать, как работает восприятие. Линия Гельмгольц — Хинтон — Кингма — Ха тянется непрерывно. ML в значительной части происходит от теорий мозга, а не просто на него похож.
Но это палка о двух концах. Давайте посмотрим на обратное движение: как ИИ сегодня возвращает нейронауке инструменты для проверки ее собственных теорий и вдохновение.
ИИ как микроскоп для нейронауки
В этой статье я очевидно и старательно сближал мозг и нейросеть. Теперь попробуем разобраться, насколько близость настоящая и где она заканчивается. Потому что метафора — вещь опасная (тем более на Хабре): если ей слишком доверять, начинаешь путать «похоже» с «одно и то же».
Начнем с хороших новостей (для метафоры). Последние лет десять нейробиологи, исследователи машинного обучения и ряд смежных инженеров обнаружили странную вещь: если взять нейросеть, обученную на какой-нибудь человеческой задаче (распознать объекты, понять речь, предсказывать следующее слово), и заглянуть под капот, ее внутренние представления окажутся похожими на то, что мы видим в мозге.
Это превратилось в полноценное научное направление. Нейросеть используют как инструмент — примерно как микроскоп: обучаешь ее на задаче, смотришь, какие внутренние структуры у нее сложились, и сравниваешь с мозгом. Если совпадает — значит, эти структуры, вероятно, нужны для самой задачи, а не являются случайной особенностью биологии.
Чтобы было понятно, о чем речь, расскажу про три линии исследований.
Первая — зрительная кора и сверточные сети.
В 2014 году группа Джима Дикарло в MIT опубликовала работу, которая многих удивила. Они взяли сверточные нейросети (CNN), натренированные на распознавание объектов в ImageNet, и сравнили их внутренние активации с записями от нейронов обезьян, которым показывали те же картинки. Сравнение шло по слоям: насколько активации слоя 1 сети похожи на активности в аналогичной зоне v1 мозга, насколько слой 5 похож на зону v5, и так далее.
Оказалось, что соответствие поразительно близкое. Причем — ключевой момент — иерархия совпадает. Ранние слои сети коррелируют с ранними зрительными зонами мозга, поздние — с поздними. Никто специально не программировал сеть быть похожей на мозг, ее вообще обучали узнавать котиков от собак. А она самопроизвольно вырастила внутри себя что-то очень напоминающее биологический зрительный путь.
Это сильный аргумент. Если две совершенно разных физических системы — 20-ваттная биологическая (столько потребляет мозг) и кремниевая на видеокартах — при решении одной и той же задачи сходятся к похожим внутренним представлениям — значит, эти представления, скорее всего, определяются самой задачей. Зрение устроено так, потому что распознавать объекты иначе трудно.
Вторая линия — язык и LLM.
В лаборатории Ури Хассона в Принстоне несколько лет занимаются тем, что сажают людей в МРТ-сканер, дают им слушать истории или подкасты — и одновременно прогоняют те же тексты через GPT-2 и подобные модели. А потом смотрят, насколько внутренние состояния LLM предсказывают активность мозга в языковых зонах.
И в 2022 году опубликовали результаты исследований в Nature Neuroscience, и они, прямо говоря, ошеломительные. Внутренние представления LLM предсказывают активность в языковой коре лучше, чем любая другая модель, которую нейронаука пробовала до этого. Более того, у Хассона есть работы, показывающие, что мозг, «слушая» речь, как будто сам предсказывает следующее слово: в нем видна активность, соответствующая предсказанию, еще до того, как слово реально произнесено. А когда оно звучит — можно измерить ошибку предсказания в том же духе, как ее измеряют в LLM.

Это ровно тот факт, который теоретики байесовского мозга предсказывали много лет. Просто раньше его было нечем измерять: нужно было иметь модель языка, которая реально что-то предсказывает. А теперь такая модель есть, и совпадение с мозгом до жути фантастическое.
Третья линия — гиппокамп и world models.
Гиппокамп-зона, отвечающая за пространственную память и, по свежим теориям, за построение внутренних моделей мира в целом. В 2023-м вышло несколько работ (включая группу Тима Беренса в Оксфорде), где структуры, возникающие в искусственных моделях мира, сравнивают с активностью гиппокампа у грызунов и людей. И снова — похоже.
Модели мира — класс ИИ-систем, которые обучаются понимать физику, причинно-следственные связи и структуру окружающего мира для прогнозирования будущих состояний.
Раньше спорить о предиктивном кодировании было как спорить о стиле — аргументы выглядели чисто риторическими. Теперь можно взять модель, посмотреть, что у нее внутри, сравнить с мозгом и получить конкретное «да, похоже» или «нет, непохоже».
Теперь плохие новости для метафоры
Потому что у нее хватает серьезных ограничений.
Энергия и масштаб
Человеческий мозг, как упоминал, работает на ~20 ваттах, как лампочка в вашем холодильнике. GPT-4 на инференсе ест сотни ватт на один запрос, а на обучении — мегаватты на протяжении месяцев. Если мозг и правда реализует предиктивное кодирование, он делает это в миллионы раз эффективнее, чем наши лучшие модели. Значит, либо архитектуры радикально разные, либо мы упускаем что-то важное, какой-то трюк биологии, который пока не воспроизвели.
Тело
Байесовский мозг в исходной формулировке — это мозг, встроенный в тело, которому важно выжить. Активный вывод предполагает, что предсказания служат поддержанию организма в жизнеспособных состояниях: не умереть от голода, не упасть со скалы, найти партнера. У LLM и диффузионок ничего этого нет, они предсказывают токены или пиксели в вакууме, без привязки к выживанию и без последствий. А без тела и ставок на кону это не предиктивное кодирование в полном смысле, а только его вычислительная тень.
Онлайн vs батч
Мозг учится непрерывно: каждый опыт чуть-чуть меняет модель, прямо сейчас, без перерыва. Большие модели учатся пакетно — их тренируют на гигантском датасете, потом веса замораживают, и модель уходит в эксплуатацию неизменной. GPT-4 не учится на ваших разговорах с ним. Это принципиально другой режим работы, и многие нейробиологи считают, что именно непрерывное обучение — то, без чего сравнивать мозг и LLM всерьез нельзя.
Предиктивное кодирование — все еще гипотеза
Хочется напомнить важное: байесовский мозг и предиктивное кодирование — это пока теория, за которой стоит много косвенных данных. Есть школа нейронауки, которая считает, что корковые потоки сверху вниз не предсказания в техническом смысле, а что-то другое: внимание, модуляция, контекст. Точечное совпадение сетей с мозгом, аргумент в пользу теории, но не аксиома. Теорию еще предстоит проверить прямыми нейрофизиологическими экспериментами, а это медленно и дорого.
Свободная энергия и теория всего
Здесь уместно наконец сказать про Карла Фристона, главного современника теории байесовского мозга. Фристон обобщил идею до принципа свободной энергии: по его утверждению, любая живая система, которая сохраняет свою целостность во времени, обязана вести себя так, будто минимизирует ошибку предсказания. Это, мол, не свойство мозга, а свойство жизни как таковой. Принцип формализован через математику, и у Фристона огромная армия последователей.
Но у него и не менее внушительная армия критиков.
Основная претензия: принцип настолько общий, что объясняет все, — а значит, не объясняет ничего. Любой наблюдаемый факт можно постфактум втиснуть в его рамку. А теория, которую нельзя опровергнуть, в принципе не научная теория, а философская позиция.
Спор не утихает, и я не возьмусь его решать. Но стоит сказать: когда вам встретится фраза «принцип свободной энергии объясняет сознание/эволюцию/жизнь», относитесь к ней с вдумчивой осторожностью.
И главный пробел — сознание
Даже если окажется, что мозг и LLM реализуют одну и ту же вычислительную схему, это ничего не говорит о том, есть ли у LLM что-то вроде опыта. Почему одна предиктивная система (ваш мозг) сопровождается субъективным переживанием (красным цветом, вкусом кофе, ощущением «я есть»), а другая (GPT-4), возможно, нет? Или все-таки да? На этот вопрос нет ни одного внятного ответа. Байесовская теория мозга хорошо объясняет, как устроено восприятие, но молчит о том, почему оно вообще субъективно.
Это, кстати, ровно тот зазор, через который проваливается большинство наивных рассуждений «нейросеть думает как человек». Она может обрабатывать информацию похожим образом. Это не значит, что ей при этом что-то чувствуется.
Что остается
Если подводить черту: метафору мозга и нейросети не получится назвать ложной. Но она и не такая уютная, как хотелось бы. Связь между ними реальная, генеалогическая и местами даже количественная: одни и те же архитектуры, похожие внутренние представления, похожие ошибки. Не похоже на случайное сходство.
Но отождествлять их — ошибка другого порядка.
Мозг — это байесовская машина, встроенная в тело, которому есть что терять, учащаяся все время, работающая на лампочке. Нейросеть — байесовская машина, живущая на видеокартах, обученная раз и замороженная без страха и голода. Обе угадывают мир, и делают это очень по-разному.
В самом начале я пообещал, что после этого текста вы будете чуть меньше доверять собственным глазам. Надеюсь, вышло.
Вы сидите и дочитываете статью. Вам кажется, что вы видите экран, на нем буквы и фон. А на самом деле (возможно) вы смотрите на модель мира, которую мозг собрал за вашу жизнь и сейчас использует, чтобы предсказать, что должно быть перед вами. Сенсорные данные лишь подправляют эту модель там, где она ошибается. Ваш мозг прямо сейчас создает галлюцинацию этого текста — но делает это аккуратно, сверяясь с реальностью.
Где-то в другой части света видеокарта занимается примерно тем же самым. Она предсказывает, как из шума должна получиться картинка по запросу «человек читает статью на Хабре». У нее свои априорные знания, накопленные из миллионов изображений.
Обе системы сидят в темноте и гадают. Одна из них при этом, видимо, что-то чувствует. Какая — вопрос пока открытый...
Комментарии (65)

vada
02.05.2026 14:18Страшное дело — мозг. Ежели в наличии — легко лбмануть и он сам не прочь развлечься таким образом. А при отсутствии открываются совсем другие перспективы — ни горя, ни забот, ни обманов.

Andvecher Автор
02.05.2026 14:18Интересно, существует ли некая теория, или хотя бы гипотеза о выборе... Впрочем, риторический вопрос.

Kenya-West
02.05.2026 14:18А при отсутствии открываются совсем другие перспективы — ни горя, ни забот, ни обманов.
На Пикабу постили как раз комикс Циника на эту тему:
Скрытый текст




hren_sobachiy
02.05.2026 14:18Не лучше было бы в качестве иллюстрации разнообразные оптические иллюзии привести?

Wesha
02.05.2026 14:18Мозг оценивает и то, что ему сообщают сенсоры, но и насколько этому сообщению в принципе можно верить.
через обратный процесс шума.
Нейрослоп детектед?

beerware
02.05.2026 14:18Жена видит синее, я вижу золотое.
Позвали дочку (5.5 лет) - она видит золотое.
Интересно, как влияет наследственность? Вот это бы раскопать
MesoPrism
02.05.2026 14:18
А попробуйте вот это показать. Что вы, жена и дочка видите на этих трех картинках.
Если жена скажет что на крайней левой и крайней правой она видит одно и то же - я пойду напьюсь наверное. Ну либо она у вас мастер шуток просто.

MountainGoat
02.05.2026 14:18Тут не наследственность, а привычка мозга к созерцанию всратых пересвеченных картинок. У тех, кто привык, мозг сам компенсирует пересвеченность. Было сине-чёрное, но на фото цвета съехали до розово-корчневого. Добавить разницу в настройке мониторов и вот оно.

Wesha
02.05.2026 14:18Интересно, как влияет наследственность?
Чуть менее, чем никак. Это исключительно вопрос «какой нейрон в мозге активировался первым». Например, если долго смотреть на
другую известную картинку,

то девушка будет вращаться то по часовой стрелке, то против.
Так же и платье.

DmitryOlkhovoi
02.05.2026 14:18Смотрел как-то передачку, и там племена в пустыне не могли различить розовый кружечек среди зеленых. Просто потому, что они его никогда не видели и даже слова такого не знают. Ну и в целом там разные приколы, что река у них цвета молока.
Восприятие цветов: Народ химба использует другую цветовую схему, делящую спектр на темные, светлые и цветные оттенки. Исследования подтверждают, что родной язык влияет на восприятие цвета.

MesoPrism
02.05.2026 14:18Так это не секрет, у дальтоников тоже самое. Но никто и нигде в мире не слышал про дальтонизм на белый цвет =)

DmitryOlkhovoi
02.05.2026 14:18ну платье я видел это в двух цветах без шуток, причем сначала думал, что бело золотое это верно.
Дальтонизм это прям физический косяк, а восприятие цвета другое. У племени именно про восприятие

MountainGoat
02.05.2026 14:18Так у северных народов по 50 оттенков белого. И не только в словаре, они ещё и сразу замечают, когда на розовато-белом пятно из сиреневато-белого. То есть восприятие цветов это навык, которому тренируешься.

TimurZhoraev
02.05.2026 14:18Для квадрата Малевича важен общий контекст. Его нужно просматривать в объёме, находясь в той самой комнате где он висит вверху и оркестрирует остальными картинами. Тоже самое и с платьем - поиграться с YUV/HSV. Кто помнит на ламповых цветных телевизорах была откидная плата с резисторами регулировки этих величин чтобы красное не стало зелёным.

RMV1983
02.05.2026 14:18Мне кажется, статье подошёл бы следующий пример. Если идёшь и смотришь вперёд, а впереди ступенька, то когда к ней подходишь, необязательно наклонять голову и смотреть, где она — мозг зачастую уже смоделировал и примерно понимает, куда нужно наступить, что бы не споткнуться.
И как мне лично кажется, чем лучше человек осознаёт физические законы, тем лучше его мозг моделирует сложные ситуации в реальности.

CrazyYogin
02.05.2026 14:18Вот интересный вопрос созрел. Если есть идея, что мы воспринимаем мир НЕ напрямую, то очевидно возможно какое-то прямое восприятие. Может ли автор или любые другие комментаторы хотя бы в виде модели описать это самое «прямое» восприятие. Каким бы было восприятие мира если бы оно было «прямым»?

Zenitchik
02.05.2026 14:18Если есть идея, что мы воспринимаем мир НЕ напрямую, то очевидно возможно какое-то прямое восприятие.
Эм... Не очевидно, и даже не следует.

CrazyYogin
02.05.2026 14:18Если не очевидно, то и сами разговоры о "непрямом" восприятии абсурд и профанация. Непрямое является непрямым только в сравнении с прямым.

Nanotoliy
02.05.2026 14:18Очевидно что "прямое" восприятие мозгом окружающего мира возможно, но не информативно и чаще всего смертельно. Потому что трогать мозгом гравий примерно тоже самое, что и проверять, положим, напряжение высоковольтной сети подключая в разрыв цепи компик, а не специальный датчик. Глупо и можно один раз

Kenya-West
02.05.2026 14:18Нет прямой интерпретации реальности, так как реальность есть шум, суп из атомов, энергий и полей. Причём из всего многообразия субъект получает лишь ограниченный набор данных, на разных масштабах. Чтобы вычленить смысл и не сжечь свой биологический процессор от потуг постигалова, придётся поток данных фильтровать, отделяя малозначимое от знамчимого, дропнув до 99% всей картины. Получается, остаётся только нужное, актуальное сейчас. И его интерпретация бесконечно далеко от "реального" (какой бы смысл мы ни вложили в это слово) положения дел. Таков путь разума в мясной клетке.

Pavel_nobranch
02.05.2026 14:18Большую часть времени вы смотрите не на мир, а на собственную и хорошо откалиброванную модель мира.
не. когда смотрите, вы видите реальный мир. проблема в том что люди не смотрят. зачем, если есть модель. здесь с автором согласен. автор затронул тему моделей восприятия, в которой я гуру. двв года практик. злость, негативное восприятие мира, выгорание это все последствия модельного мышления. но на хабре я позиционирую себя как гуру слепой печати, а не гуру психологии). писал на пикабу на эту тему "психологическая техника ввв360"

vanxant
02.05.2026 14:18Я когда-то размышлял над смежным вопросом: зачем вообще появился и главное эволюционировал головной мозг? Он ведь жрёт дофига энергии (до 40%), требует кучу сложной биоинженерии (отдельный круг кровообращения или там гематоэнцефалический барьер) и при этом крайне нежный и хрупкий. При этом какие-нибудь динозавры вполне обходились очень простой версией без высшей нервной деятельности, им вполне хватало простейших функций типа хватат, жрат, бежат и (размножаться). Крокодила нельзя приручить, потому что у него тупо нет нужных для появления привязанности отделов мозга. Сколько не корми, он всё равно будет кусать кормящую руку (хотя и знает, что она приносит еду).
Ну так вот, моя гипотеза была в том, что мозг развился, чтобы сократить время реакции на внешние угрозы до отрицательного. Т.е. предсказывать будущее. А это и есть то, что написано в статье: мозг строит модель мира и существует "в ней", принимая сигналы снаружи только как поправки. Или не принимая, если так проще.

LeraKholod
02.05.2026 14:18Ваша гипотеза абсолютно верна и совпадает с мейнстримом эволюционной нейробиологии. Мозг это машина для предсказания будущего. Мышление эволюционировало из необходимости управлять движением в изменчивой среде. У организмов, которые не двигаются (асцидий например), мозг переваривается за ненадобностью, как только они прикрепляются к камню

bookker
02.05.2026 14:18Мозг — это байесовская машина, встроенная в тело, которому есть что терять, учащаяся все время, работающая на лампочке. Нейросеть — байесовская машина, живущая на видеокартах, обученная раз и замороженная без страха и голода. Обе угадывают мир, и делают это очень по-разному.
Представьте, что вы надели VR гаджет и попали в другую реальность. Вот этот гаджет и есть искусственная нейросеть. Не весь мозг, это только его второстепенная операционная часть, дополнительное устройство, формирующая симуляции. В ней отсутствует самое главное - наблюдатель, внутреннее "я", для которого и создаются эти симуляции. Поэтому мозг - не байесовская машина, встроенная в тело. Мозг и есть часть тела, отвечающая за формирование самости всего организма в целом и управляющая им. А чтобы делать это эффективно, он и использует гаджет, который вы ошибочно представляете "байесовским мозгом".
MaxAkaAltmer
Вот специально взял пипетку и посмотрел какие там цвета в цифрах, и оно золотисто белое. У пипетки мозга нет - просто цифры выдает. У видеокамеры тоже значит "байесовский мозг" был?
Вышло с точностью до наоборот.
MesoPrism
Да это просто из википедии взяли инфу, там вранье, которое потом разрешилось тем, что у производителя были эти платья в двух расцветках..
И пипеткой цвет смотреть - слишком сложно =) просто посмотрите на правую верхнюю часть оригинального фото, где у плеча складки. Там ткань отбрасывает тень
Какую блин тень отбрасывала черная ткань на черной ткани чтобы она была так видна?:))
Вот вроде и неплохая статья, а хрень на КДПВ всё портит.
Andvecher Автор
Как бы там ни было, множество людей видели разное на одной картинке.
Я видел сине-черное платье, мои коллеги на тот момент бело-золотое, с одной и той же картинки.
Платье всего лишь пример, а реплик его фотографий по сети разошлось огромное количество. При написании статьи взял фото из Википедии.
MesoPrism
В таком случае возьмите любой кусочек этого фото из Википедии, вырежьте и посмотрите. Вы вот на этом кусочке
Видите черный и синий цвета? О,о Ну это ж невозможно, тогда и в жизни у вас должны быть проблемы с цветовосприятием и при работе должны цвета видеть иначе.
Вы хотите оспорить то, что слева сверху RGB (126,110,74), HEX: #7e6e4a - Светлый серо-оливковый? Или вы всегда видите такой цвет черным?
А коллеги над вами просто пошутили, реально подсунув картинку с сине-черным платьем, как тогда многие делали, не обижайтесь :) Можете у них сейчас спросить.. а то будете всю жизнь думать что это и правда было :)
Andvecher Автор
Да, безусловно.
Мы тогда решили спор через дизайнера по пипетке в Adobe PS.
У меня не наблюдалось ощутимых проблем с восприятием цвета (есть легкое смешение оттенков на прям тонких гранях, но в пределах нормы).
Но статья вообще не о платье, а о довольно примечательной концепции работы мозга. Наверное, я выбрал неудачный визуальный пример, и поднял древний спор)
MesoPrism
Я именно это и сказал, когда уточнил что статья интересная, а картинка на КДПВ - полная фигня =)
Дабы уйти от офтопика - есть еще интереснейший пласт науки, который изучает возможности мозга воспринимать раздражители при ограничении одного или нескольких органов чувств. Это касается и усиления слуха у незрячих и многого другого. Мне кажется что как раз вот этот адаптационный механизм и делает человеческий мозг именно тем что он есть и достичь этого искусственно будет невероятно сложно.
Andvecher Автор
Да, и я вам благодарен.
Приму во внимание, и в будущем буду избирательнее в оформлении, чтобы громкая история не перебивала техническую суть. Иначе даже как-то обидно выходит: статья имеет цель познакомить читателя с возможным механизмом работы когнитивного восприятия, а дискуссия уходит в платье коллекции 11-летней давности)
Andvecher Автор
>..интереснейший пласт науки, который изучает возможности мозга воспринимать раздражители при ограничении одного или нескольких органов чувствВот это офигенная тема, очень люблю эксперименты по когнитивной психологии (хотя здесь замешан целый пласт наук, от нейропластичности/биологии до сенсорики).
В принципе пока идёт малое понимание мозга, а если идти в сферу создания искусственного аналога - мы даже не особо преуспели в энергоэффективности вычислений. В скорости безусловно, но это только скорость, когда в системе сотни параметров.
RMV1983
Простите, но не могу это не прокомментировать. Да, я вот тоже вижу бликующий/выгоревший чёрный и синие цвета. Проблем с цветовосприятием нет.
Собственно, у меня два основных возражения.
Первое, про синий:
Вы хотите оспорить, что справа и снизу преобладает синий компонент? За исключением складки справа-сверху, но там явно тень.
Второе, про бликующий/выгоревший чёрный. Вы бликов никогда не видели? Не различаете чёрный-матовый и чёрный-глянцевый на солнце?
Тут можно наглядно увидеть и FF FF FF, и C7 D8 F5, и 2B 29 2C, и 0D 0C 0E, и всё это — один материал, при разном освещении. Так что реальный чёрный цвет на фото может быть почти любым, в зависимости от окружения.
И последнее:
Спор о чёрно-синем/бело-золотом платье легко находится.
MesoPrism
Платье оно из ткани. Вы серьезно пытаетесь доказать что всё попало в блик?) Про преобладание синего компонента - вы в курсе что такое белый цвет?)
Конечно находится, как опровергнуть то, что человек видит каким-то цветом?) Даже на той же википедии написано про "платье короля"
Просто тогда многие, ради шутки давали вариант реально с черно-синим платьем и убеждали коллег что видят бело-золотое =)
torbasow
Помню, что реально проверял на коллегах и друзьях одно и то же фото. Да многие так и делали. Думаю, проверяльщиков было намного больше, чем шутников.
MesoPrism
Думаю что первая же проверка на цвета в любом редакторе типа фотошопа выявила бы шутку =) А все кто пипеткой увидел золотистый
, а глазами - черный
побежали бы к офтальмологу быстрее ветра.
RMV1983
Вы забываете про освещение и особенности материалов.
RMV1983
Платье, конечно, обычно из ткани, но ткани бывают разными, как и краски. Что вы этим хотели сказать?
Да, именно так. Может, правильнее стоит это назвать "специфичным освещением", но суть от этого не поменяется. Вот пример:
Скрытый текст
В курсе. А вы в курсе, что такое спектр освещения и фильтры?
Достаточно опросить вживую самому 30-60-100 человек, что бы понять, что спор возник не на пустом месте.
Ничего не знаю про этих "многих", но я сам тогда проводил опрос с одной фотографией и получал разные ответы.
RMV1983
Не знаю, как я тут умудрился допустить опечатку, только сейчас увидел. Формат записи цвета на рисунке под спойлером, конечно же RGBa
MesoPrism
Да да и вот второе "фото" которое пытались выдать за первое
И вот тут действительно темно синий и черный цвета
А вы продолжайте верить в магию)
sermah
Так картинка же та же, все складки на месте. Просто первая фотка засвечена, а тут это исправлено
MesoPrism
Так доказывают что цвета на первой фотке - это цвета на второй, так как если бы она была незасвечена.
Они пытаются доказать что видят самое левое фото глазами как правое, понимаете?
RMV1983
Как по мне, логика иная. Если центральное поместить на яркое специфичное освещение, то оно будет выглядеть как левое. Например, в яркий солнечный южный день, в полдень. Если в тень, то как правое.
Само платье от этого не поменяет цвет, но на фото пипетка будет показывать разное значение.
Собственно, этот приём используется для различных иллюзий, как один из эффектов, насколько я понимаю.
jlllk
Предметы на фоне тоже будут менять свой цвет, чего не происходит на обсуждаемом платье.
RMV1983
Если говорить конкретно про картинку 3in1 выше, то как раз
происходит
Если говорить чуть более абстрактно, то зависит от освещения. К примеру, если направить луч прожектора на конкретную вещь, то изменения в цвете (по мнению пипетки) будет больше, чем у соседней вещи, куда луч приходит уже рассеявшийся.
LeVoN_CCCP
А в абсолютно тёмной комнате оно может стать вообще зелёным, особенно если вам об этом скажут несколько человек предварительно
RMV1983
А чего в неё верить? Я и так, знаю, что она существует, но в наших краях зовётся Наукой :-)
Сапоги скороходы → электро-ролики и т.п.
Волшебный горшочек →мультиварка-скороварка
Хотите заклинание убеждения? Вот вам психология, когнитивные искажения, и соломенное чучело, которое вы побили.
Wesha
Вот ни разу не. Волшебный горшочек — синтезатор материи, потому как по сюжету он наварил столько каши, что в ней потонул город. В мультиварку столько продуктов не наложить.
Zenitchik
Я оспорю! Этот цвет называется "поносный"!
Anton_Timofeev
О, давно забытый срач)
Там просто жёлтая лампочка, по полу это отчётливо видно
Скрытый текст
kma21
Мне кажется, что люди до сих пор разговаривают о разном. Одни говорят о цветах на картинке, а другие говорят о истинном цвете предмета, пытаясь восстановить эти истинные цвета по фото с искажёнными цветами.
И если в случае цветов на картинке решает пипетка и световой код цвета, то об истинном цвете можно долго рассуждать, не зная условий съёмки. Может это вообще в УФ было снято.
runaway
Ура. Срач про цвет этого платья -- это та немногая тема в интернете, которая будет вечно.
MountainGoat
При чём срач, как и любой долгоживущий срач — не про объект, а про терминологию его описания. Что про самолёт, взлетающий с транспортёра, что про это платье — разные люди отвечают на разные вопросы, а потом изумляются, что ответы не сходятся.
sim2q
вот https://habr.com/ru/companies/ru_mts/articles/1029856/#comment_29917302 тоже долго уже держится - там и агент поддержки :)
Destructive
Вы точно отправляете по ссылке туда, куда и планировали?
LeraKholod
Путаете абсолютные значения пикселей с восприятием сцены) Пипетка берет изолированный пиксель, а мозг (или алгоритм баланса белого в камере) всегда делает поправку на источник освещения (цветовую температуру), оттого и расхождения во взглядах)
JediPhilosopher
Мне вообще это было очевидно сразу, так как я увлекался фотографией, и с балансом белого приходилось возиться. И удивительно оказалось, что многим людям эту концепцию приходится объяснять, и они в нее еще и не верят.
Потом мы с сыном играли в ванной, и я внезапно научился воспроизводить этот эффект очень наглядно, используя игрушки и походный фонарик с красным режимом свечения.
Внимание, вопрос: какого цвета поезд, если известно что пластиковый поддон под ним белого цвета?
Белый?
Правильный ответ
Мозг видит красное освещение, видит красный "пиксель" на поезде, и вычисляет что в свете красной лампы такой красный оттенок будет у исходно белого цвета. Но внезапно поезд сам по себе красный. Но в отраженном красном свете он будет почти такого же оттенка, как и если бы был белым, и мозг немного ломается.