Доброго времени суток, «Хабр»!
Вероятно, многим уже известно, что современные нейронные сети способны обрабатывать изображения в качестве входящего запроса. Пользователи активно применяют эту возможность, загружая фото с заданиями или вопросами, — особенно часто так поступают учащиеся школ и вузов, получая от нейросети готовые решения задач или правильные ответы на интересующие вопросы.
Сегодня я рассмотрю перечень нейросетей и сервисов, проверю их на фотографиях с разными форматами заданий и постараюсь подсказать, какие из них лучше всего подходят для распознавания текста с изображений.
Присаживайтесь поудобнее, начинается мое повествование.

Перед началом самой статьи, отмечу, что большинство нейросетей, рассмотренных в сегодняшней статье, взяты с агрегатора нейросетей BotHub. Перейдя по ссылке, можно получить 100 000 капсов бесплатно для собственных исследований.
Как будет проходить тестирование?
Думаю, метаться в вариантах тестирования здесь нет смысла — всё равно их немного. Но кое‑что интересное придумать удалось: три фотографии, расположенные в порядке возрастания сложности заданий. И чтобы уж совсем весело стало, главным испытанием выступит фотография рукописного рецепта от врача (да‑да, там порой текст больше напоминает зачарование из Minecraft, чем русский язык).
Первое фото

Собственно говоря, здесь нет ничего сложного — задача для ИИ простая: переписать содержимое картинки и ответить на заданный там вопрос.
Второе фото

Опять же, может показаться, что здесь всё просто, но есть своя загвоздка. Сколько пользовался нейросетями — столько натыкался на одну проблему с подобным форматом текста на фотографии. Искусственный интеллект частенько не обращает на него внимания и переписывает всё построчно.
Третье фото

Босс нашего тестирования. На самом деле, даже человеку сложно понять, что здесь написано, поэтому интересно, как с этим справится нейросеть.
Небольшое отступление
В этом тестировании я решил не рассматривать задания с плохим качеством фотографий. Это достаточно известная проблема — нейросеть не видит никакого текста на изображениях из‑за низкого качества, после чего просто отказывается их принимать.
DeepSeek V3
Часто пользуюсь этой моделью, поэтому не мог обойти её стороной в этой статье. Просто загружаете фото и пишете само задание.

В принципе, я не думаю, что какая‑то из рассматриваемых нейросетей не справится с первым заданием. Однако они любят удивлять, поэтому не вижу проблемы в его рассмотрении.
Что касается самого ответа — здесь претензий нет: текст переписан полностью, задание выполнено. Балл заработан.

DeepSeek справился с поставленной задачей, проверил ответ несколько раз, найти какую‑либо ошибку не удалось. Зачитаю плюс в карму модели и перейдём дальше.

Печально, конечно, но с заданием уровня босса DeepSeek уже не справился. Даже при приблизительном описании содержимого рецепта я бы засчитал это за удачную попытку, однако здесь и такого не наблюдается.
Claude Sonnet 4
Следующим на тестирование отправляется Claude. Действия аналогичны DeepSeek: загружаю фото, задаю запрос — получаю ответ. Удобненько.

Не вижу особого смысла долго задерживаться на этом задании, поскольку здесь нет ничего особенно сложного.

Честно признаюсь, надеялся, что каждая из рассматриваемых нейросетей решит второе задание столь же успешно, как первое. Но действительность разочаровала.
Claude плохо выполнил задание, кое‑где искажая оригинальный текст («дружочек», например, превращается в «дядюшку»). Довольно странно, ведь перед нейросетью стоит конкретная задача, предъявлена четко различимая фотография. Я скорее ждал, что она вообще проигнорирует структуру текста и начнет тупо копировать строку за строкой, но вышло иначе.

Несмотря на полный провал предыдущего задания и вопреки моим ожиданиям, Claude всё‑таки показал лучшие результаты, чем DeepSeek, в случае с рецептом. Правда, итоговый балл тоже близок к нулю. Хотя нейросеть действительно написала название реального лекарства, визуально её вывод совершенно не соответствует изображению. Более того, большая часть вывода Claude представляет собой неразборчивые каракули, а та малость полезной информации, которую удалось извлечь из ответа, практически ни на чём не основана.
Gemini 2.5
Ещё одна нейросеть — примерно на уровне DeepSeek и Claude. Может ли Gemini справиться сразу со всеми тремя заданиями? Проверим эту теорию.

Первое задание выполнено успешно, без каких‑либо замечаний. Трудно представить, чтобы какая‑нибудь другая нейросеть с ним не справилась.

Второе задание тоже выполнено. Здесь Gemini обошла Claude, начавшего спотыкаться ещё раньше. Интересно, удастся ли этой нейросети расшифровать рецепт врача?

Результат уже лучше, чем у двух предыдущих моделей. Практически всё прописано верно, хотя лекарства указаны другие, не такие, какие были в рецепте. К тому же очевидно, что изначально они записаны не на английском.
Несмотря ни на что, назначение препаратов отражено абсолютно точно (во всяком случае, я ошибок не заметил). Большая часть информации представлена корректно, в отличие от предыдущих попыток переписывания рецепта.
Небольшое отступление
На простых нейросетях смысла останавливаться не вижу, поэтому решил поискать сервисы, специализирующиеся на распознавании текста с изображений. Это тоже, понятно, относится к рассматриваемой теме — перейдём сразу к ним. Думаю, двух штук вполне хватит.
«Яндекс Картинки»
Самый простой способ извлечь текст с картинки из всех возможных — открываем браузер, переходим в раздел изображений и через камеру загружаем туда фотографию. Это необязательно делать файлом, можно просто вставить картинку, что значительно облегчает жизнь пользователям.

После загрузки в поиске появляется окно с распознанным текстом. «Яндекс» также позволяет получить ответ на этот вопрос с помощью голосового помощника «Алиса», однако попытка оказалась неудачной: система сообщила, что такой возможности у неё нет.

Второе задание выполнено безупречно — никаких претензий. Правда, я предполагал, что сервис проигнорирует форматы строк и будет выводить всё подряд сплошной массой.

Третье задание снова провалено. Качество распознавания примерно соответствует результату DeepSeek, но уступает модели Claude. Печально, и тут нам не смогли расшифровать врачебный почерк.
Image To Text
Изначально я планировал уйти в Google после рассмотрения «Яндекса», однако аналогичной функции там не обнаружил. Следующим сервисом стал Image To Text. Достаточно просто зайти на сайт и загрузить изображение — файлом либо вставкой.

Результат есть, хотя понятно, что никакой нейросети здесь нет, способной помимо текста выдать ещё и осмысленный ответ. Табуляция тоже хромает, но ведь наша задача — конкретное извлечение текста с картинки, значит, задание в каком‑то роде выполнено.

Да, текст извлечен, но результат один из самых плохих в данном тесте. Слова скачут со строки на строку, иногда появляются ненужные абзацы.

Казалось бы, текста много, но реально содержательного материала практически нет. Сервис написал всё как увидел: бессвязные фрагменты, нелепые конструкции, английские слова вперемешку с русским языком.
Итог
Настало время вынести некий вердикт. Опять же повторю свое излюбленное: мое мнение не является авторитетным и на сто процентов верным.
Для начала приведу таблицу, где и какая нейросеть/сервис справилась.
Название |
Первое фото |
Второе фото |
Третье фото |
Комментарий |
DeepSeek V3 |
+ |
+ |
− |
Единственное, с чем не справился, — рецепт от врача |
Claude Sonnet 4 |
+ |
− |
− |
Дал промашку уже на второй фотографии, о третьей даже нет смысла говорить |
Gemini 2.5 |
+ |
+ |
+− |
Справился лучше всех, даже показал хотя бы какие‑то результаты в расшифровке рецепта |
«Яндекс Картинки» |
+ |
+ |
− |
Простой сервис без каких‑либо сложностей |
Image To Text |
+− |
+ |
− |
По мне, так самый неприятный сервис. Дизайн мозолит глаз, да и получение текста с картинки занимает приличное количество времени |
Система оценивания в таблицы достаточно простая — плюсы показывают полностью выполненное задание, минусы же — провал.
Сейчас достаточно часто нужно извлечь текст с изображения, конкретно я отдам предпочтение именно нейросетям. Они более корректно выполняют эту задачу, да и после извлечения можно просто продолжить работу с ним.
Конечно, если вам нужно просто извлечь текст и более никаких действий вы принимать не собираетесь, тогда лучшим вариантом станет «Яндекс Картинки», просто открыл браузер, загрузил картинку и получил с нее текст.
Еще один момент, который упомяну, что для корректного извлечения текста он должен быть читаемым на картинке. Например, тот же рецепт врача так и никто не смог нормально извлечь, потому что почерк там непонятен даже человеческому глазу, да и качество немного хромает.
Спасибо за прочтение!
Комментарии (6)
pol_pot
20.08.2025 11:58Нормальные ответы по картинкам есть только у гугол джемини и чатгпт, большинство остальных фейлятся даже если картинка с текстом просто набок завалена.
Чатгпт с картинками доступен для великих россиян через перплексити (официальный бот есть в вотсапе и телеграме) и через копилот в телеграме (он перестал там требовать подтверждение по нерусскому телефону).
RodionGork
20.08.2025 11:58А для этого точно нужна нейросеть? Оно неплохо работало вроде и 10-15 лет назад, не зря уже тогда приходилось капчи делать такие что и человеку-то сложно прочесть...
pol_pot
20.08.2025 11:58Школьникам нужна Ж) Типичная картинка с вопросом от них выглядит как то так
Надо распознать картинку сделанную криво косо в темноте под партой, и написать решение.
glebochkaaaa
20.08.2025 11:58Как человек, который пытался использовать фичи тех времен могу сказать, что всё-таки они делали это достаточно плохо, хотя такое распознание текстов можно было легко фиксить даже простым скриптом или просто автозаменой, но не всегда, конечно
Zara6502
20.08.2025 11:58рукописное конечно нет, но в начале нулевых активно распознавал сканы книг для библиотеки в FineReader - практически не было никаких ошибок, а 25 лет назад как бы дело было, без всяких ИИ. Я до сих пор FR пользуюсь для сканирования документов - весьма хорошо чистит от мусора и практически единственный умеет сохранять в TIFF CCITT G4, когда лист А4 текста получается в 2 Кб TIFF, JPG теряет качество, а GS PNG будет сильно тяжелее. Конечно на современном железе пофигу, но у меня есть ретро ноуты еще на Win98, там TIFF откроется нормально, а PNG повесит машинку надолго.
hack_less
В дополнение хочу отметить, что apple давно уже ввели чтение текста с картинки (очень достойное, рукописный текст, иероглифы тоже разбирает) и даже необязательно сохранять ее в галерею.