Мультимодальные языковые модели анализируют рентгеновские снимки, распознают объекты на дорогах для беспилотников и разбирают спортивную статистику в реальном времени. Они обрабатывают текст, изображения и видео одновременно, превращая сложные визуальные данные в точные выводы. Но недавнее исследование выявило конфузную слабость: эти же модели систематически проваливаются на задаче, с которой справится любой школьник — определить время по стрелочным часам. Причём речь не о редких ошибках, а о полном провале всех четырёх протестированных моделей.

Эксперимент: 43 000 изображений часов
Команда исследователей из Мадридского политехнического университета, Миланского политехнического университета и Вальядолидского университета создала датасет из более чем 43 000 синтетических изображений аналоговых часов. Четыре разные мультимодальные модели тестировали на способность правильно называть время.
Результат оказался неутешительным: все модели изначально провалились. Исследователи попытались исправить ситуацию, дообучив модели на дополнительных 5000 изображениях. Точность временно выросла — но только на похожих данных. Как только моделям показали совершенно новую коллекцию изображений часов, точность снова снизилась.
Это классическая проблема ИИ: модели отлично справляются с привычными данными, но буксуют на новых сценариях. Им не хватает способности к обобщению.
Тест Дали для ИИ
Исследователи решили копнуть глубже. Они создали серию экспериментов с искажёнными часами — вроде тех, что нарисовал Сальвадор Дали в «Постоянстве памяти». Ещё одна серия тестов включала часы с изменёнными стрелками: например, со стрелками на концах или необычной формы.

Люди легко читают время даже на деформированных циферблатах. Модели — нет. Они путаются в определении пространственной ориентации стрелок. Но хуже всего им даётся распознавание стрелок нестандартного вида — тех, которых не было в тренировочных данных.
Эффект домино
Оказалось, что чтение времени — это многоступенчатая задача: сначала нужно распознать стрелки, затем определить их направление и угол относительно цифр, и только потом вычислить время. Модели не справляются с одновременной обработкой всех этих изменений. А если ошибка происходит на первом этапе, это запускает каскад ошибок.
Почему это важно
Неспособность определять время может показаться забавной мелочью. Но исследователи подчёркивают: в реальных задачах — медицинской диагностике, системах автопилотов — такие «мелкие» провалы в визуальном анализе могут иметь критические последствия.
Значит, останавливаться на достигнутом нельзя. Необходимо обширное тестирование на максимально разнообразных сценариях, чтобы модели оставались надёжными в реальных условиях.
Смогут ли ИИ-модели в будущем научиться точно читать аналоговые часы? Как иронично заметили сами исследователи в конце статьи: только время покажет.
Следите за IT‑миром вместе с нами! Ваш Cloud4Y. Читайте нас здесь или в Telegram‑канале!
Комментарии (16)

Zenitchik
21.11.2025 13:00Справедливости ради, я на приведённой картине только на одних часах сумел время определить.

BlakeStone
21.11.2025 13:00Шикарный материал – кажется, я понял, какой у меня будет новая модель «капчи» для своего движка.

anonymous
21.11.2025 13:00
Dron007
21.11.2025 13:00Отсеете молодое поколение так )

haryaalcar
21.11.2025 13:00Пока одни плюсы. Ещё бы и ввод цифр в виде дискового набора старого телефона)

Dron007
21.11.2025 13:00ChatGPT умеет, но делает это минут 5, пишет скрипты на Python, анализирует углы. Может немного ошибиться, конечно, стрелки перепутать.

Flux82
Справедливости ради, существует большой пласт людей, которые тоже не могут определить время по стрелочным часам. Хотя, вероятно, доучить людей сильно-сильно проще.