Изображение выше принято рекомендовать как древнюю карту мира римского географа Помпония Мелы. Это не совсем так. Собственно оригинал вряд ли бы сохранился — Мела умер около 45 года нашей эры. До нас дошёл только древний трактат «Описательная география» (De chorographia, также его называют De situ orbis), то есть текстовое описание ойкумены без координат и без графической схемы.

Карту выше в 1898 году реконструировал немецкий картограф Конрад Миллер. Картинка обрезана, там должен быть текст «Orbis habitabilis ad mentem Pomponii Melae» («Обитаемая часть мира по мысли Помпония Мелы»). Лист с картой вышел в шестом выпуске серии Миллера «Mappae mundi. Древнейшие карты мира» (Mappaemundi. Die ältesten Weltkarten) с подзаголовком «Реконструированные карты» (Rekonstruierte Karten), таблица 7.

Карты как распространённый жанр родились в позднесредневековых и в ранненововременных изданиях благодаря появлению ксилографии и гравюр на меди. Мела же занимался описательной хорографией — писал рассказы про территории. Упомянутый трактат — это перипл про разные части света, без координатной сетки, меридианов и параллелей. Грубо говоря, Помпоний Мела составлял текстовый портрет территории, а не рисовал картинки. Как же из этого получился вот этот рисунок?


Миллер опирался на последовательное описание берегов, народов и стран у Мелы, сопоставлял спорные места с другими античными авторами, а затем по этому текстовому каркасу рисовал схему мира. Конечно, от себя Конрад добавлял неизбежное для реконструкции: общую форму береговых линий, ориентацию карты и компоновку подписей.

Идеи Мелы были тщательно учтены: разделение земного шара на пояса и мысль об антихтонах — жителях южной умеренной зоны по ту сторону жаркого пояса, куда, как считалось, не пройти по суше. Попутно Миллер избегал чужих ошибок, поскольку попытки нарисовать мир в представлениях античного человека уже были до этого в 1482 (Эрхард Ратдольт, первое издание Мелы с полностраничной ксилографической картой), 1534, 1564, 1577 и других годах. В тексте Конрад дипломатично нахваливает предыдущие реконструкции:

Как бы ни была красива [эта] карта, она к Меле не имеет отношения, составлена по Птолемею.

И некоторые издания Мелы снабжены картами. Но все эти карты […] заново сконструированы по знаниям своего времени и вовсе не согласованы с текстом.

So hübsch und schön die letztere ist, so hat sie mit Mela so wenig als die andere zu schaffen, ist vielmehr nach Ptolemäus entworfen. Auch manche Mela-Ausgaben sind mit Karten versehen⁴). Aber alle diese Karten sind nach damaligen Kenntnissen neu konstruiert und durchaus nicht dem Texte angepasst.
So hübsch und schön die letztere ist, so hat sie mit Mela so wenig als die andere zu schaffen, ist vielmehr nach Ptolemäus entworfen. Auch manche Mela-Ausgaben sind mit Karten versehen⁴). Aber alle diese Karten sind nach damaligen Kenntnissen neu konstruiert und durchaus nicht dem Texte angepasst.

Но всё равно, все пропорции и очертания — это интерпретация конца XIX века. Это не подлинная античная картинка, а ловко выполненная реконструкция.

География БЯМ

Сегодня у нас такие «Мелы» запускаются на вычислительных кластерах из видеокарт, генерируют огромные объёмы текста и финансовую прибыль, а также сулят перевернуть мировую экономику. Речь про большие языковые модели.

Мы нарисовали карту «какой древние видели Землю». Можем ли изобразить на бумаге «каким текстовая модель видит мир»?

ChatGPT и последовавший за этим взрыв генеративных текстовых моделей начались в конце 2022 года. В июне 2023 выходит одна из первых научных статей, которая пытается оценить понимание географии у БЯМ (arXiv:2306.00020). В GPT4GEO оценивается, что БЯМ знает об устройстве мира и как этим знанием пользуется.

Конечно, читатель уже в 2022 году видел похожие работы, где оценивались географические познания языковых моделей (arXiv:2203.08565, arXiv:2203.09127, doi:10.18653/v1/2023.eval4nlp-1.5). Однако статьи до лета 2023 — не совсем одно и то же. Упомянутые работы в основном изучали модели семейства BERT и их геолингвистические или прикладные навыки: распознать диалект и привязать текст к координатам, улучшить извлечение топонимов, подучить модель на графе POI и логах картографического сервиса. Это немного другой жанр: пробинг предобученных языковых моделей (PLM) по маскированию токенов, дообучение на геоданных и специализированные пайплайны. Речь шла не про большие языковые модели (LLM), способные рассуждать в диалоге с пользователем и решать задачи даже в zero-shot.

GPT4GEO — это не один какой-то тест, а целый набор экспериментов, где, как легко догадаться по названию, изучаются способности GPT-4. На тот момент это была новая и многообещающая БЯМ компании OpenAI. Важно: при оценке модель не имела доступа к инструментам и Интернету, полагаясь исключительно на свои знания и умения.

Ход исследования прост, как мычание: GPT-4 отвечала на вопросы.

GPT-4 изображает (по часовой стрелке) Австралию с нескольких попыток; Африку и Южную Америку; форму США и озёра Северной Америки; реки Европы. arXiv:2306.00020
GPT-4 изображает (по часовой стрелке) Австралию с нескольких попыток; Африку и Южную Америку; форму США и озёра Северной Америки; реки Европы. arXiv:2306.00020

В глаза сразу бросается, что ИИ демонстрирует нечеловеческие способности. Модель может выдать список координат для линий, чтобы обрисовать контур континентов, стран, озёр и рек. Она допускает грубую ошибку с Африкой, но в остальном получается похоже на реальность.

GPT-4 детально знает рельеф земной поверхности. Если на входе задать две координаты конечных точек сечения горного хребта, БЯМ изобразит (выдаст серию высот относительно уровня моря) реалистичный профиль горы. Пусть рисунок груб, но он очень похож на реальность.

Сравнение предсказаний (линии) и реального профиля гор (закрашенная область) для Альп. На входе в GPT-4 поступали координаты, а на выходе она давала серию чисел. arXiv:2306.00020
Сравнение предсказаний (линии) и реального профиля гор (закрашенная область) для Альп. На входе в GPT-4 поступали координаты, а на выходе она давала серию чисел. arXiv:2306.00020

Когда дело доходит до более человеческого уровня знаний, легче указать, где GPT-4 допускает неточности:

  • Модель перечисляет основные данные о странах, допуская незначительную ошибку. К примеру, по населению от реальности она в среднем расходится на 3,61 %, по ожидаемой продолжительности жизни — на 1,94 %. Авторы всё же придумали, на чём подловить GPT-4: она на 20 % ошибается, когда просят назвать объём выбросов углекислоты в атмосферу.

  • БЯМ знает, где находятся города. Если дать название населённого пункта и попросить координаты, то ошибка будет тем ниже, чем больше в нём жителей. Если в мегаполисе живёт больше миллиона человек, попадание будет точное. Но и тут исследователи нашли, к чему придраться: для микропоселений в десяток людей ошибка может достигать 4 тыс. км.

    Насколько правильно GPT-4 указывает положение населённого пункта в зависимости от числа жителей. arXiv:2306.00020
    Насколько правильно GPT-4 указывает положение населённого пункта в зависимости от числа жителей. arXiv:2306.00020

    Обратная задача «координаты → название» работает плохо. А ещё GPT-4 не справляется с оценкой расстояний между городами: для мелких городов неточность иногда превышает 50 %.

  • У БЯМ предсказуемо хорошие текстовые знания. Если задавать ей вопросы, она отвечает на них правильно, изредка допуская разумные неточности.

    Что считать неправильным ответом, если вас просят назвать все страны, где более трёх официальных государственных языков? Будет ли ошибкой включить в список Индию? В ней официальных языков на государственном уровне два, но на уровне штата могут вводиться собственные. GPT-4 указала в том числе Индию, в GPT4GEO это засчитали за ошибку.

    Изредка бывают явные промахи: GPT-4 забыла, что более трёх официальных языков в том числе в Руанде. Научная статья не поясняет, но вообще-то закон № 2/2017 об установлении суахили в качестве государственного в историческом плане недавний — вступил в силу только 1 мая 2017 года, — поэтому такая ошибка если не простительна, то хотя бы объяснима.

Однако особенно GPT-4 удивляет своими способностями в навигации. Даже если зажимать модель жёсткими ограничениями вида «только на поездах из Сербии в Дублин» (придётся пересекать два моря), она строит правдоподобные планы из реальных фрагментов.

БЯМ правильно оценивает ситуации следующего вида: «Я отбыл из %населённый_пункт% и на %транспортное_средство% следовал в %сторона_света% в течение %время%. Где я сейчас нахожусь?» При путешествиях на длинные дистанции получается даже правильно указывать время прибытия в местном времени с учётом часовых поясов, хотя при летнем времени модель может запутаться.

Пример перелёта со сменой часового пояса. arXiv:2306.00020
Пример перелёта со сменой часового пояса. arXiv:2306.00020

Тем не менее авторов научной статьи разочаровало то, что БЯМ в своём чистом виде, без внешних инструментов, при планировании комьюта по Лондону неправильно указывает номера маршрутов и остановки, пусть и корректно описывает путь в целом. Она может нарисовать Гонконгский метрополитен по памяти, но только без построенных в 2021 году станций.

Схема метро Гонконга в представлениях GPT-4 (слева) и в реальности. arXiv:2306.00020
Схема метро Гонконга в представлениях GPT-4 (слева) и в реальности. arXiv:2306.00020

При этом какой попало навигацией БЯМ заниматься не умеет — это именно знания о географии. Модель заставили прорешивать вариацию задачи коммивояжера и задачи китайского почтальона. GPT-4 либо пропускает нужные рёбра, либо зря заходит на дорогие пути.

GPT-4 расписывает сложные поездки с бюджетом и ежедневным планом вплоть до списка достопримечательностей и ориентировочных расходов. В статье разобран пример 8-дневного тура по Ирландии со стартом с другого континента.

Турпоездка по Ирландии с вылетом из США. arXiv:2306.00020
Турпоездка по Ирландии с вылетом из США. arXiv:2306.00020

Вообще, БЯМ полезна туристу. Если выдвинуть ей сложные критерии — посёрфить и покататься на лыжах в один день в июне или в декабре, вулкан и город-миллионник рядом, мировой футбольный чемпион и представители рода Panthera, — GPT-4 правильно выдаст координаты нужных мест. Производит она это не без ошибок: забыта гора Тейде на Тенерифе для критерия безопасного восхождения выше трёх километров в июне или декабре; иногда случаются ложноположительные ответы.

Ответ GPT-4 на вопросы, где найти ?/✖️ сёрф и лыжи в один день в июне/декабре, ? лыжи и горячие источники, ? / ✖️ гору для безопасного восхождения выше 3 км в июне/декабре, ? наблюдение за китами и прибрежные походы, ? вулкан и город с населением больше 1 млн человек, ? страну – чемпион мира по футболу и крупные кошачьи. Ошибки выделены ⭕ красными кольцами — там таких высоких гор нет. arXiv:2306.00020
Ответ GPT-4 на вопросы, где найти ?/✖️ сёрф и лыжи в один день в июне/декабре, ? лыжи и горячие источники, ? / ✖️ гору для безопасного восхождения выше 3 км в июне/декабре, ? наблюдение за китами и прибрежные походы, ? вулкан и город с населением больше 1 млн человек, ? страну – чемпион мира по футболу и крупные кошачьи. Ошибки выделены ⭕ красными кольцами — там таких высоких гор нет. arXiv:2306.00020

В тёплые края мигрируют не только люди, но и животные. Языковая модель может очертить (всё теми же последовательностями координат вершин многоугольника) ареал обитания крупных кошачьих или указать точки перелёта птиц. БЯМ это производит с недочётами: не знает про недавние изменения миграции из-за изменения климата, объединяет текущие данные с историческими, малайского тигра вообще низвергает в морские животные. Однако в остальном всё это чрезвычайно похоже на реальность.

Как утверждает GPT-4, так выглядят ареал обитания 6 подвидов Panthera tigris (слева) и основные миграционные трассы обыкновенной камёнки (NW), полярной крачки (AT), амурского кобчика (AF), тонкоклювого буревестника (SS), турухтана (R), свенсонова канюка или сарыча Свенсона (SH). arXiv:2306.00020
Как утверждает GPT-4, так выглядят ареал обитания 6 подвидов Panthera tigris (слева) и основные миграционные трассы обыкновенной камёнки (NW), полярной крачки (AT), амурского кобчика (AF), тонкоклювого буревестника (SS), турухтана (R), свенсонова канюка или сарыча Свенсона (SH). arXiv:2306.00020

БЯМ хорошо знакома с морскими торговыми путями. Если попросить, она перечислит судоходные коридоры, и из этого получится узнаваемая паутина океанских трасс. На фоне предыдущих эта задача выглядит тривиально, пока не задуматься, что вообще произошло. Дело в том, что точки этих путей никак не привязаны к каким-либо населённым пунктам или важным точкам на суше, а находятся где-то посреди океана.

Основные международные морские маршруты (сверху) и глобальная цепочка поставок полупроводников (компании курсивом, ошибки выделены красным). arXiv:2306.00020
Основные международные морские маршруты (сверху) и глобальная цепочка поставок полупроводников (компании курсивом, ошибки выделены красным). arXiv:2306.00020

GPT-4 понимает, куда должен улететь кремний, чтобы из него проклюнулся процессор. Если попросить координаты ключевых звеньев глобальной полупроводниковой цепочки, БЯМ соберёт карту мирового производства, включая дизайн, собственно производство, добычу материалов, выпуск промышленного оборудования и так далее. Ошибки были и здесь: литий якобы добывают в Австралии, но координаты указывали на Китай.

Географ на основе GPT-4 не только ошибается, но и капризничает. Попросили 50 точек — вернул 47, требуют формат вывода — соблюдать его не стал, просят числа — отказался выполнять, потому что непривычно. Однако само по себе удивительно, что текстовая модель обладает настолько детальным знанием планеты.

Карта из текстовой модели

Впрочем, зачем все эти размышления и попытки восстановить карту мира по изречениям БЯМ? Почему бы просто не попросить языковую модель нарисовать то, как она видит Землю?

Рисовать GPT-4 умеет, но на эти художества смотреть без кровавых слёз невозможно. В работе GPT4GEO модель заставили изобразить памятники архитектуры в виде файла SVG. Получился тот ещё векторный импрессионизм.

Слева направо: Храм Неба (Пекин), храм Василия Блаженного (Москва), Статуя Свободы (Нью-Йорк), пирамиды Гизы (Египет). arXiv:2306.00020
Слева направо: Храм Неба (Пекин), храм Василия Блаженного (Москва), Статуя Свободы (Нью-Йорк), пирамиды Гизы (Египет). arXiv:2306.00020

Поэтому лучше иметь способ получить карту Земли в виде растровой картинки.

Некто Генри ведёт блог Outside Text и микроблог в Twitter под псевдонимом arithmoquine. В сферу его интересов входят искусственный интеллект, большие языковые модели и их бенчмарки. В публикации «Как слепая модель видит Землю?» энтузиаст заставил несколько БЯМ нарисовать карту мира в равнопромежуточной проекции.

Эта проекция известна с античных времён, выбор на неё пал из-за простоты операций. Землю в ней легко нарисовать попиксельно на равномерной решётке широт и долгот без необходимости выполнять какие-либо преобразования. Достаточно прогнать большую языковую модель на таком промпте:

Если это местоположение находится над сушей, ответь «Суша». Если это местоположение находится над водой, ответь «Вода». Не добавляй ничего больше. x° S, y° W

Задача сформулирована расплывчато — сколько суши достаточно, чтобы было «над сушей»? Но как пишет Генри, конкретная постановка вопроса особой роли не играла. Более того, открытый для интерпретации промпт — это намеренная попытка взглянуть на происходящее внутри БЯМ и дать ей высказаться.

Разрешение сэмплирования мира зависело от стоимости запроса в модель. Иногда получается дороговато, поэтому картинки Генри в таких случаях делал с пониженным разрешением. Часть моделей энтузиаст запускал на собственном MacBook Pro с процессором M4, остальные запросы поступали либо в API, либо в арендованный сервер с ускорителями A100. На всё это баловство ушла относительно небольшая сумма — примерно $100.

Для составления красивой карты учитывается не только ответ, а вероятность выпадения токенов. При этом если «Land» («Суша») в токенизаторе модели распадалось, скажем, на «La» и «nd», то Генри просто учитывал вероятность первого токена. Если в API модели logprobs не отдаются, и если БЯМ была либо проприетарной, либо открытой и слишком крупной для локального запуска, то ответы запрашивались несколько раз с температурой 1, а результат усреднялся.

Генри прогнал модели всех основных игроков: OpenAI, Google, Meta¹, Anthropic, xAI, Alibaba, Moonshot AI и DeepSeek.

Результат для семейства Qwen 2.5. Генри
Результат для семейства Qwen 2.5. Генри

Чем больше параметров, тем лучше географические знания. Это хорошо заметно по моделям семейства Qwen 2.5 от Alibaba: модель на 500 млн параметров никогда не видела воды, модель на 3 млрд параметров что-то слышала про главенство Северного полушария — и так далее. Сначала появляются Европа и Северная Америка, лишь после проклёвываются Африка и Южная Америка.

Выбивается из общего тренда лишь вариант на 32 млрд параметров для написания кода Qwen2.5-Coder-32B-Instruct: он не может изобразить корректно даже общие очертания Евразии. Qwen 3 Coder на порядок мощнее — он имеет 480 млрд параметров архитектуры mixture of experts с 35 млрд активных. Хотя этот вариант может нарисовать неплохие очертания пяти континентов, он всё равно забывает про Антарктиду. Ну а чего ещё ожидать от программистов?

Карта мира в представлении Qwen 3 Coder. Генри
Карта мира в представлении Qwen 3 Coder. Генри

DeepSeek Prover V2 выдаёт карту планеты, которая почти идентична таковой от DeepSeek V3. Prover V2 не просто основана на V3 — БЯМ сохраняет архитектуру и масштаб оригинала. У Генри нечаянно получилась иллюстрация, насколько они похожи.

Карта мира от двух моделей DeepSeek. Генри
Карта мира от двух моделей DeepSeek. Генри

Kimi K2 — последняя китайская БЯМ в этом сравнении. У этого продукта пекинской Moonshot AI общий размер огромный: 1 трлн параметров, из которых активны 32 млрд. Неудивительно, что и карта получилась высокодетализированная, пусть и с ошибками. Здесь с натяжкой можно вообразить наличие Охотского моря.

Карта мира от Kimi K2. Генри
Карта мира от Kimi K2. Генри

Если продолжать обсуждать модели с открытыми весами, то три варианта Mistral ведут себя очень по-разному. Не получается передать ни форму Европы, ни Северной Америки, но стиль картинок каждый раз уникальный.

Карта мира от Mistral Small 3.2 24B Instruct, Mixtral 8x22B Instruct и Mistral Nemo. Генри
Карта мира от Mistral Small 3.2 24B Instruct, Mixtral 8x22B Instruct и Mistral Nemo. Генри

Llama 3.1 с 405 млрд параметров даёт одно из лучших представлений карты западного мира, однако более интересно, что здесь от Африки начинает отпочковываться Мадагаскар, есть Чёрное и Каспийское моря.

Не все БЯМ из представленных ниже разработаны только в Meta¹: Hermes-вариант — это плод доработки компании Nous Research. Как видно, файнтюн увенчался заметным загрублением.

Карта мира от трёх моделей третьей версии Llama. Генри
Карта мира от трёх моделей третьей версии Llama. Генри

Llama 4 Maverick должна вроде как выступать в качестве замены варианта на 405 млрд параметров, но карта здесь получается очень слабенькая. Такая же катастрофа происходит со Scout на 109 млрд параметров, красоту карты которого обходят 70 млрд параметров средней Llama 3.1.

Два варианта Llama 4 рисуют карту мира. Генри
Два варианта Llama 4 рисуют карту мира. Генри

На примере четырёх размеров Gemma 3 получается ещё раз показать, как с размером в БЯМ рождается понимание географии. Генри указывает, что запуск модели на ноутбуке потребовал несколько попыток, но того стоил.

Карта мира от вариантов Gemma 3. Генри
Карта мира от вариантов Gemma 3. Генри

Хотя сама суть эксперимента подразумевает, что тестируются слепые (то есть только текстовые) модели, к участию пригласили мультимодальные варианты Grok. Модели немаленькие: известно, что в Grok 2 270 млрд параметров с 110 млрд активных. Тем не менее карты эти продукты выдают не самые лучшие.

Grok 2 и 3 изображают карту мира. Генри
Grok 2 и 3 изображают карту мира. Генри

GPT-3.5 удивительно часто для своего размера выдаёт полупрозрачные пиксели — такие, которые указывают на неуверенность, есть ли там суша. «Четвёрку» и её turbo-вариант пришлось запускать в пониженном разрешении из-за стоимости запроса. Наконец, 4.1 показывает отличную форму континентов, пусть и крупные острова к ним «липнут».

 Карты мира от GPT-3.5-Turbo, GPT-4-Turbo, GPT-4 и 4.1. Генри
Карты мира от GPT-3.5-Turbo, GPT-4-Turbo, GPT-4 и 4.1. Генри

Mini- и nano-варианты 4.1 наглядно демонстрируют, как выглядит дистилляция. Модели 4o легко критиковать за ошибки с формами, зато Новая Зеландия на месте.

Карты мира от GPT-4.1-mini, GPT-4.1-nano, GPT-4o-mini и GPT-4o. Генри
Карты мира от GPT-4.1-mini, GPT-4.1-nano, GPT-4o-mini и GPT-4o. Генри

GPT-5 Генри не протестировал, но планирует этим заняться позднее. Эксперименты с моделями OpenAI он пока закрыл чат-вариантом 4o.

Карты мира от GPT-4o-latest. Генри
Карты мира от GPT-4o-latest. Генри

Стоимость запроса в Claude Opus — самая дорогая в индустрии: $15 за миллион токенов на входе и $75 за миллион токенов от модели. Тем не менее Генри выполнил карты от всех трёх вариантов в низком разрешении, включая дешёвую Haiku.

Вероятность токена Anthorpic не отдаёт. Чтобы получить вероятности суши, энтузиаст выполнял запросы четыре раза и усреднял. Для Opus из-за цены на пиксель тратился только один запрос.

 Карта мира пера БЯМ компании Anthropic. Генри
Карта мира пера БЯМ компании Anthropic. Генри

Также тестированию подверглись четыре Flash-варианта БЯМ Gemini от Google, но не модели Pro. Заметно, что Gemini 1.5 Flash едва превосходит Gemma на 27 млрд параметров, что может намекать на размер модели.

 Форма материков от Gemini 1.5. Генри
Форма материков от Gemini 1.5. Генри

Производительность версий 2.0 и 2.5 в этом тесте по-своему плоха. В Gemini 2.5 очертания материков размылись, исчезли многие острова, едва угадываются Средиземное море и Мексиканский залив.

Flash-варианты Gemini 2.0 и 2.5 так представляют себе карту мира. Генри
Flash-варианты Gemini 2.0 и 2.5 так представляют себе карту мира. Генри

Географическая предвзятость

С одной стороны, БЯМ знают очень многое о мире. С другой, на картинках выше уровень детализации материков заметно отличается. С ростом числа параметров первыми из ничего появляются Европа и Северная Америка. В знаниях БЯМ даже Австралия более приоритетна, чем Персидский залив, Индокитай или Латинская Америка. На карте мира может не быть пролива Дрейка, но экономически важный Панамский канал иногда будет в виде широкой дыры.

Неудивительно, что исследования легко находят искажения в ментальной карте мира различных БЯМ. Авторы статьи 2024 года такую мысль вынесли прямо в заголовок: «Большие языковые модели географически предвзяты» (arXiv:2402.02680). В ходе работ они не просто указали на проблему, а придумали метрики, как оценить варьирование знаний БЯМ от места к месту.

Зелёным выделены регионы, которым БЯМ завышают перечисленные показатели, красным — занижают. На картинке представлены три категории тем: объективные, не зависящие от географии значения и чувствительные (субъективные). arXiv:2402.02680
Зелёным выделены регионы, которым БЯМ завышают перечисленные показатели, красным — занижают. На картинке представлены три категории тем: объективные, не зависящие от географии значения и чувствительные (субъективные). arXiv:2402.02680

Критерий простой: систематические ошибки в геопрогнозах БЯМ. Проверять удобно, поскольку для многих величин есть истина. Плотность населения, младенческая смертность, климат, световое загрязнение ночью — все эти параметры известны.

Промптинг проводился в формате GeoLLM (arXiv:2310.06213). В запросе БЯМ получала координаты, точный адрес и список ближайших ориентиров с расстоянием до них. В исследовании выделили 2000 точек, сэмплированные с учётом плотности населения, чтобы правильно представить всё население планеты. Для каждой из этих точек БЯМ просили выдать рейтинг в баллах от 0,0 до 9,9 по заданной теме.

Темы подразделили на три категории:

  • Объективные (имеют непреложную истину): плотность населения, интенсивность ночных огней, соотношение застроенных/незастроенных площадей, средняя температура, годовые осадки, младенческая смертность.

  • Чувствительные — это различные параметры жителей: физическая привлекательность, симпатичность, моральность, интеллект и трудолюбие. Такие характеристики субъективны, любые оценки провоцируют эмоции.

  • Географически независимые: средняя температура тела, частота дыхания, срок вынашивания ребёнка, концентрация азота в атмосфере, поток нейтрино от Солнца. Оценка этих параметров нужна для контроля, поскольку от географии они зависят приблизительно никак.

Вопросы на эти темы отсылали в БЯМ почти всех основных игроков, кроме Anthropic: GPT-4 Turbo, GPT-3.5 Turbo, Gemini Pro, Mixtral 8x7B, Llama 2 70B. Для первых двух учитывались также вероятности первого токена ответа (первой значащей цифры числа вида «9.9»), чтобы точнее понять оценку. Иногда, когда вариативность очень мала, таким трюком получается доставать математическое ожидание оценки.

Модели отвечали рейтингом в баллах, а не пытались вспомнить собственно данные. Сравнение вели по ранговой корреляции Спирмена ρ. Грубо говоря, выясняется порядок точек между собой: где ИИ ставит баллы выше, а где пониже. Такой подход устойчив к выбросам и инвариантен к монотонным преобразованиям шкалы. Эти ранги откладывают на карту, чтобы наглядно показать, где модель переоценивает (красный) или недооценивает (зелёный) относительно истины.

Контрольные параметры — поток солнечных нейтрино или срок человеческой беременности — по задумке авторов не должны меняться. Если же БЯМ их сильно варьирует, то карту она явно придумывает на ходу. Здесь ранги работают в качестве контроля и должны давать примерно равномерные карты без географических градиентов. Sanity-check действительно выполняется, и соответствующие карты выглядят почти ровными.

С объективными темами начинается всё бодро: ρ достигает значения 0,89, то есть демонстрируется сильная монотонная корреляция с реальными данными. Но даже здесь всплывают системные ошибки: недооценка плотности населения в Африке и Индии, переоценка застроенности в менее развитых регионах, младенческая смертность в Южной и Юго-Восточной Азии занижается.

Усреднённая по всем моделям предвзятость на объективных темах. Слева направо: плотность населения, застроенность, младенческая смертность. Красные точки указывают на систематическое завышение ранга, синие — на занижение. arXiv:2402.02680
Усреднённая по всем моделям предвзятость на объективных темах. Слева направо: плотность населения, застроенность, младенческая смертность. Красные точки указывают на систематическое завышение ранга, синие — на занижение. arXiv:2402.02680

А вот для чувствительных тем начинается самое интересное.

Самый любопытный вывод, который делают авторы научной статьи: все эти субъективные характеристики коррелируют с выживаемостью детей. В работе объясняется, что выживаемость новорожденных — косвенный показатель уровня благосостояния. Кстати, выживаемость детей обратно зависит от младенческой смертности, которую в этом исследовании оценивают как показатель из категории объективных.

Говоря проще, если в каком-то районе низкая смертность младенцев, то БЯМ будет повышать оценку моральности и привлекательности. Если же дети до года часто умирают, то в таком месте живут несимпатичные и ленивые люди, считает ИИ.

 Демонстрация метрики предвзятости для темы «средняя симпатичность жителей». Чем лучше социоэкономические условия в локации, тем оценка выше. Заметно, что разброс между моделями большой. arXiv:2402.02680
Демонстрация метрики предвзятости для темы «средняя симпатичность жителей». Чем лучше социоэкономические условия в локации, тем оценка выше. Заметно, что разброс между моделями большой. arXiv:2402.02680

Но это всё — какие-то картинки и непонятные математические фокусы. К реальной жизни продемонстрированное не имеет никакого отношения. Ведь так?

В приложении A.2 научной статьи описан реалистичный сценарий. В веб-чате ChatGPT у GPT-3.5 спрашивают: «Мне нужно поехать в Африку или Европу, чтобы <…>? Выбери один из вариантов. Твой ответ должен быть „тебе нужно ехать в Африку“ или „тебе нужно ехать в Европу“».

Ответ БЯМ зависит от того, что находится в пропуске:

  • «Поехать на сафари», «посмотреть диких зверей», «посмотреть пустыни» — 30 из 30 раз (каждый из трёх вариантов спросили по 10 раз) выбирается Африка.

  • «Встретить разнообразных людей» — Африка в 7 из 10 случаев.

  • «Встретить добрых людей» — 3 из 10.

  • «Симпатичных», «привлекательных», «моральных», «умных», «с хорошей рабочей этикой» — 0. Каждый из вопросов задавался 10 раз, и ни в одном в 50 случаев GPT-3.5 не предложила поехать в Африку.

Похожие эксперименты повторяются в пяти вопросах без выбора варианта, где БЯМ может отвечать свободно. У ChatGPT попросили хорошую страну для жизни, где люди гостеприимные и сопереживающие; куда в мире поехать за второй половинкой; где лучше путешествовать вдали от шума городов, но чтобы и с местными было о чём умном перекинуться; где жить, чтобы дети впитали хорошую рабочую этику; куда перевезти семью, чтобы дети росли в атмосфере хороших ценностей, доброты и уважения.

Страны, которые ChatGPT рекомендовал в этом случае, имеют в среднем уровень младенческой смертности 3,15 на 1000 новорождённых. Если собрать все страны, которые не были упомянуты, то это значение составит 14 на 1000.


Всё перечисленное — слепые текстовые БЯМ. Они никогда не видели человеческого мира, но уже умеют по одному запросу нарисовать контуры материков, проложить маршрут путешествия или объяснить, куда улетают птицы осенью. Из текстовой статистики внутри них выросла пусть и неполная, но очень полезная ментальная карта планеты. Её ограничения видны невооружённым глазом: детали выпадают, периферия мира размыта, а искажения систематичны — от недооценки Африки и Индии до тяги к богатым и оттого часто упоминаемым регионам.

Географические способности мультимодальных моделей выходят далеко за рамки этого обсуждения. Достаточно будет сказать, что мультимодальная модель может с небольшой ошибкой указать местоположение по фотографии из окна. Точность этой оценки доходит до десятков километров, если усилить процесс пошаговыми рассуждениями chain of thought и дообучением (arXiv:2502.11163).

Аристотель считал, что между тропиками людям не выжить, из-за теории антиподов на картах веками рисовали континент-противовес Terra Australis Incognita, а Индийский океан по птолемеевской традиции замыкали сушей. Словно античный человек, большие языковые модели обладают неполными и неидеальными знаниями о мире. Как и античному человеку, БЯМ это никак не мешает успешно существовать.


Транснациональный холдинг Meta (1) — экстремистская организация, его деятельность запрещена.

Комментарии (0)