Схема метода Lens Blur Fields (слева направо): съёмка калибровочных шаблонов на мониторе на Google Pixel 4 (у этого телефона матрица с технологией dual-pixel); обучение MLP, которая моделирует пространственно-вариативную ФРТ на (, ) как непрерывную функцию положения (, ) и фокуса . Здесь показаны срезы восстановленного пятимерного поля для левого и правого зелёных субпикселей. arXiv:2310.11535
Схема метода Lens Blur Fields (слева направо): съёмка калибровочных шаблонов на мониторе на Google Pixel 4 (у этого телефона матрица с технологией dual-pixel); обучение MLP, которая моделирует пространственно-вариативную ФРТ на (u, v) как непрерывную функцию положения (x, y) и фокуса f. Здесь показаны срезы восстановленного пятимерного поля для левого и правого зелёных субпикселей. arXiv:2310.11535

Оптическое размытие или функция рассеяния точки — собирательное название для множества эффектов деградации изображения. В их числе — расфокусировка, дифракции и аберрации. Характер ФРТ крайне сложно калибровать, поскольку она меняется в зависимости от положения на сенсоре, настройки фокуса, расстояния до объекта и даже конкретной области на плоскости изображения. Поэтому любые попытки точно описать размытие реальной камеры сталкиваются с необходимостью измерять слишком большое количество параметров, что на практике выполнить почти невозможно.

Метод Lens Blur Fields предлагает новое решение: использовать многослойные перцептроны, которые обучаются представлять ФРТ в виде непрерывной функции высокой размерности (arXiv:2310.11535). Такая модель способна обобщать по всем параметрам сразу и восстанавливать плавные изменения ФРТ вместо того, чтобы хранить её в виде разрозненной таблицы замеров.

В теории это значит, что метод Lens Blur Fields позволит не только сделать очередной красивый фильтр с боке, но и различать экземпляры камер по снимкам с них.


Когда нужно выделить главный объект сцены резкостью, а остальной фон и передний план размыть, применяют эффект малой глубины резкости. Эффект визуально выделяет объект съёмки и придаёт изображению художественную выразительность благодаря мягкому размытому фону — боке. Фотографы-энтузиасты и просто продвинутые любители боке ценят.

В традиционной фотографии малая глубина резкости достигается физическими методами — использованием объективов с большим диаметром апертуры и матриц большого размера. Чем шире относительное отверстие объектива (меньше числовое значение f/), тем более размытыми получаются объекты не в фокусе.

Мировые поставки фотокамер согласно данным членов японской Camera & Imaging Products Association. Statista
Мировые поставки фотокамер согласно данным членов японской Camera & Imaging Products Association. Statista

Смартфоны без труда проглотили рынок компактных камер, а затем с жадностью начали заглядываться на фотоаппараты покрупнее и подороже. Чтобы отхватить хотя бы кусок этого сегмента, нужно повторить характерные только для зеркалок функции. И вообще, портреты с боке шарить на фотохостингах и в приложениях социальных сетей потребители обожают.

Однако боке в крошечном «глазке» телефонной камеры реализовать не так-то просто: физически трудно добиться заметно малой глубины резкости, поскольку из-за короткого фокусного расстояния объектива практически весь кадр оказывается в зоне резкости. Нужны иные, нежели просто оптика, решения. Малую глубину резкости приходится имитировать вычислительными методами.

На самом деле можно нарисовать и полностью искусственный портретный режим: отделить главный объект, жахнуть Gaussian blur к фону и дело с концом. Одна из первых работ на тему синтетического боке — DeepLens (arXiv:1810.08100). Это была первая сложная нейросетевая модель, получающая на вход полностью резкое изображение и выдающая его версию с заданными параметрами размытия (выбранная плоскость фокуса и имитируемая диафрагма). В DeepLens входят модуль предсказаний глубины, дифференцируемый модуль имитации размытия линзой и модуль сглаживающего upsampling. Все блоки обучались на синтетических и реальных данных. Кстати, большие датасеты пар фотографий «с настоящим боке — резкое фото» с зеркалок тоже постепенно появились (arXiv:2006.05698).

Обзор метода DeepLens. arXiv:2006.05698
Обзор метода DeepLens. arXiv:2006.05698

Что-то можно сделать всякими смартфонными насадками по типу Lensbaby и прочими системами с наклоном и сдвигом оптической оси. Так получается менять положение фокальной плоскости и создавать зоны размытия. Эти методы опираются на физические свойства оптики.

Однако не каждому захочется носить с собой такой аксессуар, да и результат выглядит не всегда интересно. Поэтому в первую очередь для смартфонного боке приходится уповать на вычислительную фотографию.

Пример работы Lensbaby Edge 80. Rainy Day Magazine
Пример работы Lensbaby Edge 80. Rainy Day Magazine

Несомненно, обсуждение этой сферы нельзя не начать с пленооптических камер по типу Lytro. В таких системах требуется специальное оборудование — матрица микролинз. Запись четырёхмерного светового поля делает возможным позднее менять фокусировку и диафрагму при обработке: как получать картинку с большой глубиной резко изображаемого пространства, так и с размытым фоном. Минусы — в низком разрешении и технических сложностях камер. Пусть это не окончательный приговор пленооптическим камерам как классу устройств, но при всей необычности своих продуктов компания Lytro тихо скончалась, не сумев завоевать свою нишу.

Путь к программному боке начинался с движения в противоположном направлении — к увеличению глубины резкости, когда нужно получить все объекты сцены резко изображёнными. Странно упоминать работы по получению большой глубины резкости в этом контексте, но именно они заложили основы вычислительного управления фокусировкой. Их принцип заключался в коррекции оптики на основе знаний о её характеристиках.

К примеру подобных относится работа 2010 года по Spectral Focal Sweep, задействующая хроматическую аберрацию (doi:10.1109/ICCPHOT.2010.5585101). Плавное изменение фокуса по различным длинам волн света расширяет глубину резко изображаемого пространства. Предлагалось, на первый взгляд, парадоксальное решение — не бороться с хроматической аберрацией, а намеренно её усиливать и использовать в качестве сканера фокуса по длинам волн.

Если в обычной оптике добиваются одинакового фокуса для всего спектра, здесь фокусное расстояние сознательно делают зависящим от \lambda. В результате монохромный сенсор за экспозицию получает смесь изображений, каждое из которых резко для своей длины волны. Суммарная функция рассеяния точки оказывается почти независимой от глубины. Дело за малым: измерить её на белой точке и выполнить деконволюцию.

Что особенно важно, так можно радикально упростить оптику. В работе сравнивается вроде не такой уж и громоздкий Cosmicar 75 мм F/1.4 (в экспериментах диафрагмирован до F/4), с которым соревнуется двухлинзовая самоделка из серийных Edmund Optics #48184 и Thorlabs LE1929.

Три объекта, расположенные на различной глубине сцены, сняты с одинаковой экспозицией 16 мс на Cosmicar 75 mm F/1.4 (слева) и на более компактную оптику F/4 с алгоритмами Spectral Focal Sweep. Columbia Imaging and Vision Laboratory
Три объекта, расположенные на различной глубине сцены, сняты с одинаковой экспозицией 16 мс на Cosmicar 75 mm F/1.4 (слева) и на более компактную оптику F/4 с алгоритмами Spectral Focal Sweep. Columbia Imaging and Vision Laboratory
Spectral Focal Sweep упрощает оптику и её размеры. Сравнение по габаритам Cosmicar 75 mm F/1.4 (слева) и двухлинзового объектива для SFS. Columbia Imaging and Vision Laboratory
Spectral Focal Sweep упрощает оптику и её размеры. Сравнение по габаритам Cosmicar 75 mm F/1.4 (слева) и двухлинзового объектива для SFS. Columbia Imaging and Vision Laboratory

Другой пример — статья, где было показано, что намеренное введение оптических аберраций может увеличить глубину резкости при съёмке панорам (doi:10.1007/978-3-642-37447-0_28). Выяснилось, что реальные объективы с аберрациями дают ФРТ, которые не похожи диски одинаковой яркости, а имеют острые края. Они меняются и по полю кадра, и по глубине сцены. Их табличная калибровка крайне трудоёмка.

А если получить глубину для программного боке? В принципе, глубину можно оценивать по серии снимков с разным фокусом, выполненных на камере смартфона в реальных условиях, если решить проблему калибровки и сшивки кадров при ручном движении камеры (doi:10.1109/CVPR.2015.7298972). В одной из статей карту глубины получили по двум снимкам на Nexus 5 с различной степенью расфокусировки, хотя съемка велась с рук и в сцене есть движение (doi:10.1109/CVPR.2017.507). Для этого алгоритм комбинирует локальную оценку размытости в небольших окнах с глобальным анализом структуры сцены (границы объектов, текстуры), добиваясь точного результата в сложных условиях полевой съемки.

Два снимка на смартфон Nexus 5 (слева) содержат немного размытости от расфокусировки при существенном движении между кадрами. На основе этого были оценены функции глубины и двумерного движения. Эти функции вычисляются по крошечным фрагментам 9×9 пикселей (на вставке). На основе крайне разреженных локальных оценок восстановлены плотные карты глубин с чёткими границами и движение (справа) doi:10.1109/CVPR.2017.507
Два снимка на смартфон Nexus 5 (слева) содержат немного размытости от расфокусировки при существенном движении между кадрами. На основе этого были оценены функции глубины и двумерного движения. Эти функции вычисляются по крошечным фрагментам 9×9 пикселей (на вставке). На основе крайне разреженных локальных оценок восстановлены плотные карты глубин с чёткими границами и движение (справа) doi:10.1109/CVPR.2017.507

Впрочем, зачем вообще вспоминать про Nexus 5 из 2013 года? Современные смартфоны далеко ускакали от аппаратов первой половины надцатых годов не только за счёт вычислительной мощи их процессоров. Даже в бюджетных телефонах сегодня стоит по два разнесённых объектива, например широкоугольный и телеобъектив. Эти два «глазка» дают два ракурса одной сцены, из которых с помощью алгоритмов вычисляется карта глубины. Далее для эффекта боке фон размывается в соответствии с этой картой. Такие портретные режимы стали широко рекламироваться примерно в 2016–2017 годах.

Ещё одно аппаратное средство — матрицы с технологией dual-pixel. Если упрощать, в таких системах каждый пиксель на деле состоит из двух фотодиодов, расположенных по смещённых относительно оптической оси положениям. Изначально эта технология предназначалась для автофокусировки. Но исследователи быстро сообразили, что пара из левого и правого пикселя имеет достаточное смещение, чтобы получить стереобазу для оценки глубины сцены из всего одного снимка на одну камеру с технологией dual-pixel (arXiv:1806.04171). Карту глубины возможно восстанавливать непосредственно из данных dual-pixel (arXiv:1904.05822) или по отношению между сдвигом размытого изображения на паре субпикселей и расстоянием до объекта (doi:10.1109/ICCP48838.2020.9105278).

Предложенная модель на основе полученной ФРТ даёт более точную карту глубины, чем классические методы стереосдвига. doi:10.1109/ICCP48838.2020.9105278
Предложенная модель на основе полученной ФРТ даёт более точную карту глубины, чем классические методы стереосдвига. doi:10.1109/ICCP48838.2020.9105278

Идея быстро развивалась. Было показано, что на основе данных от dual-pixel возможно строить не только глубину, но и удалять эффекты размытия (arXiv:2110.05655). Dual-pixel прижился и в мобильных портретных режимах стал одним из двух опорных сигналов. Второй из этих сигналов — это сегментация (обычно нейросетью), которая грубо отделяет человека от фона. В удачных сценах глубина по dual-pixel даёт аккуратные границы и правильную зону нерезкости, а сегментация помогает там, где стереобаза мала или текстур мало.

Получить боке на устройстве размером с плитку шоколада получается множеством способов, от сугубо оптических до полностью нейросетевых. Но это не значит, что у них нет ограничений.

Традиционные оптические методы на мобильных устройствах неприменимы, а контроля над изображением после съёмки у них нет. Аппаратно-вычислительные (многокадровые, стерео, dual-pixel) требуют либо специальной матрицы или их комбинации, либо серии снимков, а качество результата зависит от точности калибровки, сшивки и оценки глубины.

Методы, основанные на карте глубины, уязвимы к ошибкам сегментации и измерения расстояний. Малейшая неточность приводит к артефактам — ореолам вокруг объектов, протеканию размытия на передний план, проблемам с волосами и так далее. Кроме того, применение упрощенных моделей размытия ограничивает реализм: часто фон размывается обезличенно, по Гауссу. Такое не походит на реальные артефакты оптики, например яркие точки света, которые должны превращаться в характерные диски или многоугольники.

Слева направо: узкая диафрагма (f/16), широкая (f/1.8) и искусственное размытие по Гауссу, которое ну никак не походит на реальное красивое боке. arXiv:2306.04032
Слева направо: узкая диафрагма (f/16), широкая (f/1.8) и искусственное размытие по Гауссу, которое ну никак не походит на реальное красивое боке. arXiv:2306.04032

Помочь в этом помогло бы знание функции рассеяния точки — характеристики того, как точечный источник свет отображается на матрице камеры. Знание этой функции крайне важно. Точная модель размытия позволяет восстанавливать резкость на размытых снимках с помощью деконволюции, математического удаления размытия. Точная ФРТ также необходима для синтетического боке — реалистичного размытия фона на фотографиях. Методы подобного предлагались ещё в 2015 году (doi:10.1145/2824840.2824842).

Важно, что в реальных системах функция рассеяния точки существенно меняется по полю изображения и с расстоянием до объекта: она может растягиваться, вращаться, иметь сложную несимметричную форму из-за астигматизма, комы и других аберраций. Простые модели (например, аппроксимация ФРТ гауссианой или вручную заданной функцией) не способны описать всё многообразие размытия реального объектива.

Как измерить ФРТ? В теории для получения этой функции оптической системы можно было бы использовать практически точечный источник, например какой-нибудь удалённый яркий светодиод. В реальности создать идеальную точку сложно (doi:10.1145/2766928). Источник должен быть достаточно мал, чтобы проецироваться на матрицу в пределах одного пикселя, и при этом чрезвычайно ярким. Микроскопические по размеру источники страдают от дифракции. Яркие точечные светодиоды всё равно имеют конечные размеры и дают искажения на уровне пикселей, а у современных матриц размеры пикселей измеряются в микрометрах.

Поэтому обычно снимают более крупные узоры и вычисляют ФРТ. Разумеется, в процессе вносятся ошибки.

В классике ФРТ можно получить с помощью калибровки специальных мишеней. Такая мишень может выглядеть как сетка из точек или точечных узоров. В одном из исследований 2008 года для оценки размытия использовался шаблон с резкими краями, и отклонения от идеальной резкости позволяли восстановить ФРТ на разных участках изображения (doi:10.1109/CVPR.2008.4587834). В работе 2016 года пошли дальше: исследователи снимали специальные точечные паттерны на разных фокусах, чтобы построить таблицу ФРТ в зависимости от положения и фокусировки (doi:10.1109/CRV.2016.62).

Эти методы дают таблицу ФРТ — набор ядрышек размытия в узловых точках поля зрения и при некоторых настройках камеры. Если нужна таблица с мелким шагом, то задача усложнится. Если верить статье по Lens Blur Fields, для покрытия пятимерного пространства параметров (две координаты в кадр, фокус, два субпиксельных вида, 75 × 100 × 15 × 73 × 73) существующими методам нужны сотни или тысячи суток на анализ и гигабайты памяти.

Другой подход — решение обратной задачи размытия: взять размытое изображение известного шаблона и вычислить, какая ФРТ его могла породить (doi:10.1007/978-3-642-33712-3_14). Такие методы относятся к так называемой слепой деконволюции. Статья по Lens Blur Fields критикует подобный подход за идеализированную форму размытия, которая не учитывает сложно изменяющуюся ФРТ.

Ещё одна альтернатива — использование программ по типу Zemax OpticStudio или физических расчетов для прогнозирования размытия на основе известной конструкции объектива. Такой подход успешно применяется в оптическом проектировании и в задачах оптимизации. Однако для камеры, скажем, новенького iPhone этот путь обычно закрыт. Производители мудро считают, что потребителям или сторонним компаниям ни к чему полные данные о проприетарных многолинзовых системах объективов. И вообще: даже зная конструкцию, сложно учесть производственные допуски, износ и юстировку конкретного экземпляра оптического прибора. Реальные устройства могут заметно отличаться от номинальной модели, поэтому слепо доверять расчету размытия по чертежу нельзя.

Даже продвинутые аналитические модели из классической оптики — в частности, разложения по многочленам Цернике или на основе теории аберраций Зейделя — предполагают идеализированные условия (осевую симметрию, круглую диафрагму) и тоже дают существенные погрешности для сложных современных объективов. Кстати, объективы с технологией dual-pixel нужной симметрии не имеют, поэтому ни классические многочлены, ни стандартные модели аберраций не описывают эту ситуацию.

Метод Lens Blur Fields (поля линзового размытия) предлагает заменить дискретные таблицы значений ФРТ на непрерывное представление, восстановленное с помощью нейросети (arXiv:2310.11535). Функцию рассеяния точки предлагается выразить как многомерную функцию от параметров съёмки и положения на матрице: от координат (x, y) на матрице, от дистанции фокуса (или положения фокусировочного кольца) и, если требуется, глубины сцены. Собственно ядро размытия по запросу (x, y, f, ...) отдаёт многослойный перцептрон, который и дообучается в работе.

Общая схема исследования по Lens Blur Fields. Нейросеть параметризует ФРТ, чтобы по запросу с параметрами возвращать локальную ФРТ. Обучение минимизирует расхождение между  и наблюдаемым . arXiv:2310.11535
Общая схема исследования по Lens Blur Fields. Нейросеть параметризует ФРТ, чтобы по запросу с параметрами возвращать локальную ФРТ. Обучение минимизирует расхождение между h * \hat I и наблюдаемым I. arXiv:2310.11535

Важно, что функция получается непрерывной. Нейросеть учится на всём пространство входных параметров и поэтому гладко интерполирует ФРТ для промежуточных значений. Размер модели относительно невелик: обученная нейросеть хранит веса (порядка нескольких сотен тысяч параметров), что гораздо компактнее гигантских таблиц с ядрами размытия.

Калибровка iPhone 12 Pro. arXiv:2310.11535
Калибровка iPhone 12 Pro. arXiv:2310.11535

На практике использование метода Lens Blur Fields выглядит так:

  • Смартфон фиксируется напротив экрана, который показывает псевдослучайные шумовые изображения (различные варианты шаблонов). Частыми подопытными в работе выступали Google Pixel 4 и другие смартфоны, но зеркальные фотоаппараты тоже тестировались.

  • Фокусируясь то ближе, то дальше плоскости экрана, исследователи получали серию размытых снимков этих известных паттернов. В терминологии работы полученные картинки называются фокальными стеками (focal stack).

  • Зная, какой паттерн был на экране (резкое изображение \hat{I}), и имея соответствующий размытый кадр I с камеры, можно сформулировать задачу как неслепую деконволюцию: найти такую ФРТ, которая при свёртке с \hat{I} даёт I.

В работе реализованы некоторые тонкости. Например, чтобы учесть проекцию плоскости экрана на матрицу при разных фокусах, вводится геометрическая калибровка (гомография) для каждого положения фокуса. Но главное — после оптимизации получается обученная нейросеть, которая уже умеет выдавать ФРТ для любого положения и фокусного расстояния в пределах обученных диапазонов.

Сравнение реальных кадров и синтетических рендеров, полученных с выученным полем размытия для широкоугольной камеры iPhone 12 Pro, и результаты восстановления (так называемая неслепая деконволюция) по ФРТ из blur field против модели Зейделя. Здесь мишень Siemens Star (Edmund Optics I3A/ISO 12233, #58-940) расположена на 36 см от камеры, а исходный рисунок отсканирован с 600 DPI и затем размывался ФРТ из ранее откалиброванного blur field. Как хорошо видно, модель Lens Blur Fields лучше сохраняет высокочастотные детали (различимые лучи звезды длиннее), а синтетические размытые изображения по её ФРТ ближе к реальным кадрам, чем при использовании ФРТ модели Зейделя. arXiv:2310.11535
Сравнение реальных кадров и синтетических рендеров, полученных с выученным полем размытия для широкоугольной камеры iPhone 12 Pro, и результаты восстановления (так называемая неслепая деконволюция) по ФРТ из blur field против модели Зейделя. Здесь мишень Siemens Star (Edmund Optics I3A/ISO 12233, #58-940) расположена на 36 см от камеры, а исходный рисунок отсканирован с 600 DPI и затем размывался ФРТ из ранее откалиброванного blur field. Как хорошо видно, модель Lens Blur Fields лучше сохраняет высокочастотные детали (различимые лучи звезды длиннее), а синтетические размытые изображения по её ФРТ ближе к реальным кадрам, чем при использовании ФРТ модели Зейделя. arXiv:2310.11535

На сбор данных для Lens Blur Fields требуется около 15 минут, из которых собственно на показ шаблонов тратится 1,5 минуты, а остальные 5–10 минут нужны на калибровку и фиксирование камеры в правильном положении. Возни с зеркалками больше, поэтому для них процедурка отнимает порядка получаса.

Обучение на Nvidia RTX A6000 с фреймворком tiny-cuda-nn занимает часы. К примеру, получение Lens Blur Fields для 12-мегапиксельного iPhone 12 Pro требует 14 часов. Это значительно меньше, чем уже упомянутые методы 2008 и 2016 годов, с которыми шло сравнение — для них понадобились бы 34 дня (doi:10.1109/CVPR.2008.4587834) или 1945 дней (doi:10.1109/CRV.2016.62).

Синтетические рендеры в Blender с разными моделями Lens Blur Fields. Сначала генерируются изображение в HDR, где всё в фокусе. После прохода mist-pass (нормализованная глубина) к картинке применяется соответствующее поле размытия из базы, которое эмулирует поведение нужного объектива. arXiv:2310.11535
Синтетические рендеры в Blender с разными моделями Lens Blur Fields. Сначала генерируются изображение в HDR, где всё в фокусе. После прохода mist-pass (нормализованная глубина) к картинке применяется соответствующее поле размытия из базы, которое эмулирует поведение нужного объектива. arXiv:2310.11535

В работе представлены конечные результаты всех этих операций. Исследователи не отказали себе в удовольствии продемонстрировать приближенный к настоящему дефокус. Подтверждено, что такие ФРТ воспроизводят реальные оптические эффекты и имитируют боке.

Снимок в RAW с iPhone 12 Pro (слева) размыли синтетически в характеристиках Canon EF 14 mm f/2.8L (посередине) и Canon EF 24–70 mm f/2.8L. arXiv:2310.11535
Снимок в RAW с iPhone 12 Pro (слева) размыли синтетически в характеристиках Canon EF 14 mm f/2.8L (посередине) и Canon EF 24–70 mm f/2.8L. arXiv:2310.11535

Исследователи обещают выпустить полученные пяти- и шестимерные Lens Blur Fields для смартфонов и объективов зеркалок. Если судить по приписке «stay tuned», в планы входит релизнуть код работы в репозитории github.com/estherlin/learning-lens-blur-fields.


Это не совсем обычная научная статья про очередной маленький, но важный шажок в направлении совершенствования вычислительной фотографии. Если что-то и может захватить дух, так это не внезапная необходимость обучать нейросеть для предсказания параметров камеры смартфона, для чего нужно сутки гонять CUDA на видеоускорителе с ценником в $4 650.

Одна из особенностей получаемой ФРТ — уникальность для конкретного экземпляра устройства. Характерный оптический отпечаток остаётся на каждой фотографии, сделанной на камеру. В исследовании эти вопросы проверяются и обсуждаются, но только как побочный результат.

Методы идентификации камеры — тема популярная. У матрицы бывают мелкие дефекты — шум, так называемые горячие пиксели. На основании этих параметров возможно идентифицировать экземпляр камеры, на которую сделан снимок. Работ на эту тему навалом (doi:10.1109/TIFS.2006.873602, doi:10.1117/12.587105, doi:10.1109/TIFS.2007.916285, doi:10.1117/12.805701, doi:10.1007/978-1-4614-0757-7_6, doi:10.3390/jimaging7010008, arXiv:2111.02144, doi:10.1016/j.fsidi.2024.301858).

Теперь к методам идентификации добавился ещё один. Как выяснилось, у каждого аппарата есть едва уловимые, но тем не менее фиксируемые различия в ФРТ. Незначительные смещения линз при сборке, микроскопические отличия в центровке, особенности оптики — всё это приводит к тому, что распределение размытия чуть отличается. Нейросетевая модель достаточно чувствительная, чтобы установить это. У каждого аппарата обнаружилась уникальная подпись размытия.

В теории будет возможно установить, сделан ли данный снимок конкретно этой камерой или нет. Напротив, если характерное оптическое размытие у картинки отсутствует, то это маркер синтетического (сгенерированного) или изменённого (отредактированного) изображения.

Однако это пока лишь смелая гипотеза. Конкретных алгоритмов в статье по Lens Blur Fields нет. Автоматический классификатор устройств по произвольным снимкам — этого в работе реализовано не было.

Пока что точно установлено только то, что у двух экземпляров устройств одной модели есть различия в подписи размытия.

Сравнение ФРТ для двух экземпляров iPhone 12 Pro на основе усреднения трёх независимых калибровочных замеров. Заметно, что повторные замеры с перезакреплением одного и того же устройства в целом совпадают по структуре и отличаются слабо. Напротив, между экземплярами смартфонов различия куда более выраженные. arXiv:2310.11535
Сравнение ФРТ для двух экземпляров iPhone 12 Pro на основе усреднения трёх независимых калибровочных замеров. Заметно, что повторные замеры с перезакреплением одного и того же устройства в целом совпадают по структуре и отличаются слабо. Напротив, между экземплярами смартфонов различия куда более выраженные. arXiv:2310.11535

В работе тестировались пара iPhone 12 Pro и пара iPhone 14 Pro. Изъян эксперимента — разнесённость выпуска сравниваемых аппаратов. Как пишет автор работы, один 14 Pro — это её личный смартфон, который она предзаказала, второй 14 Pro она одолжила у друга (этот друг обновил телефон через примерно три недели после начала продаж нового смартфона Apple), а собственно замер для этой пары устройств проводили через месяц после релиза модели. Двух одинаковых камер прямо с ленты конвейера протестировано не было. Однако у этих, вероятно, не сильно разнесённых в дате и месте производства камер нашлись заметные различия.

Телефоны как снимали с крепления, ставили обратно и перезапускали калибровку, так и оставляли в креплении с повторным прогоном калибровки. В каждом случае обучали отдельные модели. Выяснилось, что различия между повторными измерениями меньше, чем между ФРТ разных экземпляров устройств.

Накроется ли медным тазом весь этот хитрый алгоритм из-за смещения оптической оси при переустановке объектива в зеркальный фотоаппарат? Это тоже проверили: снимали Canon EF 50 mm f/1.4 и монтировали его обратно, затем выполняли повторную калибровку и обучение нейросетевой модели. Здесь тоже была продемонстрирована хорошая повторяемость ФРТ, влияние смещения оказалось небольшим.

Сравнение оптической подписи у двух экземпляров iPhone 14 Pro по четырём усреднённым калибровкам до и четырём после переустановки в калибровочное крепление и Canon EF 50 mm f/1.4 по пяти до и пяти после переустановки объектива, тоже усреднённое. Различия между разными смартфонами есть, а вот между одной и той же телефонной камерой или одним и тем же объективом они минимальны. arXiv:2310.11535
Сравнение оптической подписи у двух экземпляров iPhone 14 Pro по четырём усреднённым калибровкам до и четырём после переустановки в калибровочное крепление и Canon EF 50 mm f/1.4 по пяти до и пяти после переустановки объектива, тоже усреднённое. Различия между разными смартфонами есть, а вот между одной и той же телефонной камерой или одним и тем же объективом они минимальны. arXiv:2310.11535

Как в личном микроблоге обещает одна из авторов работы, алгоритм будет устойчив даже к небольшим пятнам жира на линзе, и оптический отпечаток на снимке останется.

Но опять же, это лишь гипотеза. Вполне возможно, что любые мелкие различия в оптике будут легко нивелироваться алгоритмами JPEG даже без масштабирования картинки и её сжатия для веба. Но всё же, а вдруг в будущем выйдет так, что исходники в RAW будет хранить небезопасно для здоровья?


Препринт научной статьи «Learning Lens Blur Fields» опубликован на сайте препринтов arXiv.org (arXiv:2310.11535). Сайт проекта blur-fields.github.io содержит дополнительную информацию.

Комментарии (0)