Еще на заре создания машинного зрения возникло желание превратить изображение на фотографии из плоского двумерного в объемное трехмерное, тем более что для классической фотографии на пленке, пластике или бумаге уже давно были изобретены стереоскопы и демонстрировались стереофильмы.

Пионером в этой области стал инженер-электронщик Лоуренс (Ларри) Робертс из Лаборатории Линкольна Массачусетского технологического института. Потом он перешел на работу в Агентство перспективных оборонных исследовательских проектов МО США, где стал руководителем программы ARPANET и ныне входит в почетный список «пионеров Интернета». Но в его альма-матер, MIT, Ларри Робертса упрямо называют «отцом компьютерного зрения», потому что именно у них он в июне 1963 года защитил диссертацию на степень PhD по теме «Машинное восприятие трёхмерных тел».

Схема из диссертации
Схема из диссертации

«Для того, чтобы компьютер мог создавать и отображать трехмерный массив твердых объектов на основе одной двухмерной фотографии, были проанализированы и механизированы правила и допущения восприятия глубины, – писал Робертс в своей диссертации. – Эти допущения позволяют компьютеру получать разумное трехмерное описание на фотографии с помощью математического топологического процесса. Была написана компьютерная программа, которая может преобразовать фотографию в линейный рисунок и преобразовать линейный рисунок в трехмерный. Процессы преобразования 2D-конструкции в 3D-конструкции и их отображения являются достаточно общими… и обеспечивают ценную отправную точку для будущих исследований автоматизированных трехмерных систем».

В разделе о благодарностях всем, принявшим участие в написании его диссертации Робертс помимо своих научных руководителей и официального оппонента упоминает программиста Леонарда Хантмана, который написал большую часть программы для его математической модели, и, что особенно интересно, Айвена Сазерленда, который на полгода раньше, в январе того же 1963 года, на том же ученом совете MIT защитил свою диссертацию «Sketchpad — графическая коммуникационная система между человеком и машиной». Они оба тестировали свои программы на одном и том же мейнфрейме ТХ-2, и оба в своих диссертациях благодарили руководство Лаборатории Линкольна за то, что их к нему вообще допустили. Все-таки Холодная война…

Надо сказать, что на трехмерные картинки Ларри Робертса отреагировали не только айтишники, но и нейрофизиологии того времени. Они были, как говорится, в своем репертуаре. Оказалось, что и в их опытах «трехмерные твердые тела обладают свойствами восприятия, отличными от простых поверхностей или репрезентативных проекций в рамках некоторой концептуальной схемы или системы отсчета, включающей психические процессы, отличные от процессов восприятия». А если такое объяснение верно, рассуждали они, то оно «предполагает вмешательство обучения, приобретение систем отсчета и, следовательно, активность концептуальных или интеллектуальных процессов. В то же время подобные предположения требуют дальнейшего изучения, как в отношении роли сигналов конвергенции/аккомодации и бинокулярного зрения, так и в более широкой области взаимосвязи между восприятием объектов и восприятием движущихся изображений». Словом, кто о чем, а нейрофизиологии о мыслительном процессе.

Разумеется, мимо историков машинного зрения не могло пройти и такое событие, как машинное распознавание лиц, точнее сравнение оцифрованных фотографий лиц людей из базы данных с фотографией конкретным человека, то есть, по сути, компьютерный бертильонаж. 

Изобретатель этого метода выпускник Калифорнийского университета в Беркли математик Вудро Бледсоу работал в Сандийской национальной лаборатории Министерства энергетики США в Альбукерке, штат Нью-Мексико, и был там уже признанным специалистом по машинному зрению (вот, например, одна из его работ «Распознавание образов и считывание их машинным способом» 1959 года). Говорят, что распознаванием лиц с помощью компьютера он занялся для ЦРУ, но в 2014 году данное ведомство официально отказалась прояснить этот вопрос, и более осторожные историки машинного зрения пишут, что финансировало это исследование доктора Бледсоу «неназванное разведывательное агентство». Финансировало, вероятно, щедро: в 1960 году Вудро Бледсоу основал собственную компанию Panoramic Research, Inc. (PRI).

Схема из работы Вудро Бледсоу
Схема из работы Вудро Бледсоу

С помощью графического планшета оператор определял на лице координаты таких элементов, как центр зрачка, внутренний угол глаза, внешний угол глаза, точка надбровной дуги и т.д.  Результаты такой чистого вида биометрии по методу Альфонса Бертильона сохранялись в компьютере и служили основой для сравнения их с данными интересующего оператора компьютера человека. Понятно, что такой алгоритм работал только с фотографиями в анфас, и было маловероятно, что на двух снимках будут совпадать поворот головы, ее наклон, мимика лица. Но как бы там ни было, алгоритм Вудро Бледсоу работал. Работал медленно, оператор мог обработать 40 лиц в час, но вина в этом была оператора, а не компьютера. Результат же узнавания после обработки нескольких сотен фотографий был в общем-то обнадеживающий для дальнейшего совершенствования метода Бледсоу. 

Однако в «неназванном разведывательном агентстве», судя по всему, решили иначе. В 1966 году Вудро Бледсо ушел из собственной компании в Техасский университет в Остине преподавать там математику и компьютерные науки. А его работа по распознаванию лиц была продолжена в Стэнфордском исследовательском институте. Слишком долго пришлось бы рассказывать, что было потом, но в начале нашего века уже можно было идентифицировать лица в видеозаписях в режиме реального времени, а потом и тепловизором в темноте, а про прогресс распознавания ЛОМов в соцсетях говорить, наверное, излишне. Но первым шагом на этом пути был алгоритм «представления и сопоставления изобразительных структур (pictorial structures)», как назвали его авторы – Мартин Фишлер и Роберт Эльшлагер из Исследовательской лаборатории в Пало-Альто Lockheed Missiles & Space Company. 

«Получив описание визуального объекта, найдите этот объект на реальной фотографии, – пишут они в одном из отчетов о своей работе. – Объект может быть простым, например, линия, или сложным, например, океанская волна, а описание может быть лингвистическим, графическим, процедурным и т.д. Сама фотография будет называться "воспринимаемой сценой", представляющей собой двумерный массив значений уровня серого цвета». И продолжают: «Центральной проблемой во многих работах, связанных с компьютерной обработкой графических данных, является проблема репрезентации. Поскольку мы не можем манипулировать реальным объектом (самим по себе) в компьютере, мы попытаемся создать представление (или модель), которое можно использовать вместо реального объекта и которое обладает следующими (несколько перекрывающимися) свойствами». 

Далее они перечисляют эти свойства: полнота, компактность (для минимизации требований к объему памяти компьютера), возможность преобразования, возможность постепенного изменения, точность и простота перевода на язык программирования. «За последние десять лет или около того большая часть работ, связанных с графическим представлением, была ограничена областью линейных рисунков и использованием формальных лингвистических методов, – пишут они. – Попытки распространить эту работу на сцены местности, облачные покровы, человеческие лица и т.д., которые могут быть осмысленно описаны только в терминах компонентов изображения, которые не являются линейными элементами, а представляют собой области с цветами, текстурами, оттенками и т.д., не увенчались большим успехом».

Что же касается успеха самих Фишлера и Эльшлагера, то они провели в общей сложности около 400 экспериментов со своей моделью поиска и нахождения искомого объекта на черно-белых фотографиях, в том числе 40 пейзажных и городских, и проверили то, что они считали главным в своем алгоритме последовательной оптимизации (типа динамического программирования) – существенного сокращения вычислительных требований (они росли линейно с размером изображения, а не экспоненциально). Что для программистов компьютеров начала 1970-х было немаловажным ограничением. Кто ж тогда мог поручиться, что в самое ближайшее время рост вычислительной (производительной) мощности и памяти компьютеров начнет расти как раз экспоненциально, а не линейно.

На этом, пожалуй, можно закончить раннюю историю современного машинного зрения, когда был заложен его фундамент, и все остальное строилось на нем. Именно тогда, по окончании закладки этого фундамента, стало предельно ясно, что если не зацикливаться на машинном обучении, которое шло своим чередом, в том числе и в области машинного зрения, то само по себе компьютерное зрение обладало потенциалом, который позволял ему превзойти зрение человека, не вооруженного какими-либо дополнительными зрительными приборами, в видении многих конкретных вещей. Например, текстуры, производственных и транспортных потоков, охранных периметров, тех же черт лица, и т.д., когда человек просто не состоянии усмотреть все или просто не успевает выделить нужное. 

Чем и озаботилась инженерно-изобретательская мысль в последние два десятилетия прошлого века и начале нынешнего и продолжает заниматься и поныне. Были заложены основы теории анализа динамических сцен, позволяющей распознавать движущиеся объекты в видеопотоке. Появились интеллектуальные камеры, коммерческие системы визуального контроля, разного рода зрячие роботы. Стало возможным восстанавливать сцены по моментальным снимкам. Значительно повысилось качество и возможности компьютерной графики, дав ей такие инструменты как рендеринг и морфинг изображений и сшивание панорамных изображений. И многое другое, даже простое перечисление чего займет много места. Таких перечислений, кратких и подробных, в сети множество, начиная от курсовых работ студентов и кончая солидными монографиями IT-историков. 

Была даже сформулирована очередная парадигма машинного зрения, на этот раз Марра, предполагающая последовательность восходящих уровней информации об изображении объекта (растровое изображение, неструктурированная информация) к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т. п.). То есть та же по свой сути демонологическая парадигма Селфриджа.

Наверное, не лишним также будет еще раз обратить внимание на то, что создание математических моделей машинного зрения и их реализация на вычислительных машинах сильно повлияло на нейробиологию в целом и физиологию ВНД в частности. Биологи при изучении зрения животных и человека сразу после появления этих математических моделей руководствовались ими в своей работе и руководствуются ими поныне. Хотя это математики и инженеры обычно танцуют от живой природы и биологических универсалий, а не наоборот, как в данном случае.

Ну, а в заключение, кому интересно, может посмотреть машинную визуализацию патентного ландшафта 2022 года, построенного на основе алгоритмов загрузки в компьютер патентных архивов, парсинга патентных документов и их кластеризации на основе модели латентного размещения Дирихле. И заодно глянуть на визуализированный ретроспективный патентный ландшафт США и Китая, лидеров в области патентования машинного зрения. Там видно, как за последние десять лет китайцы обогнали по патентам в этой области американцев в два раза. Всё только начинается.

О сервисе Онлайн Патент:

Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам:

Комментарии (1)


  1. malyazin_2010
    27.10.2025 20:41

    Это перевод?