Генеративные модели работают в основном на цифровых вычислениях: десятки или сотни шагов через большие сети на GPU. Это энергозатратно и не всегда быстро. Для AR/VR, где всё должно летать прямо здесь и сейчас, такой подход слишком тяжеловесный.

Учёные из UCLA пошли другим путём: пусть вместо транзисторов работает свет, а тяжёлую математику решают интерференция и дифракция.

Генеративные модели крутятся вокруг одной идеи: сеть нужно натаскать воспроизводить сложное распределение данных. А дальше начинаются вариации.

У GAN всё строится на дуэли генератора и дискриминатора. Первый подделывает картинки, второй пытается угадать, настоящие они или нет. Работает это эффектно, но генератор быстро зацикливается и начинает штамповать одно и то же. Хотя и качественно. Вариационные автокодировщики (VAE) идут через приближение распределения и последующее декодирование, но страдают размытостью картинок. Диффузионные модели решили проблему иначе. Они пошагово учат сеть чистить шум и восстанавливать изображение. Картинки получаются и чёткими, и разнообразными, но за это приходится платить сотнями итераций. Трансформеры и LLM работают токен за токеном, но на длинных контекстах упираются в ресурсы.

Цена красоты высокая: сотни GPU-дней на обучение и ощутимый расход энергии на каждое изображение. Бонусом идут проблемы с охлаждением и невозможность тащить такие модели в задачи, где важна мгновенная реакция, например, в AR/VR или на телефонах.

Есть два пути: ускорять и ужимать привычные алгоритмы или вообще поменять вычислительную основу.

Исследователи из UCLA выбрали  второй вариант.

Пусть считает свет

Система устроена как конвейер из двух блоков.

Сначала идёт лёгкий цифровой энкодер. Он берёт шум и превращает его в фазовую маску — схему, задающую сдвиги фазы волнового фронта. Эта карта подаётся на пространственный световой модулятор (SLM).

SLM вносит сдвиги в лазерный пучок. При дальнейшем распространении света фазовые маски рождают узоры интенсивности за счёт интерференции (когда волны складываются и гасят друг друга) и дифракции (когда свет огибает препятствия и рассеивается). Важный момент: линейная комбинация фаз не превращается в простую линейную комбинацию картинок. Поэтому система умеет выдавать действительно разные изображения, а не просто миксовать шаблоны.

Следом включается оптический декодер. На выходе (после декодера и сенсора) интерференция складывается в итоговую картинку.

Обучение происходит в «цифре». Большая диффузионная модель генерирует пары «шум/картинка». На этих данных учат энкодер (чтобы он правильно маппил шум в фазу) и калибруют параметры декодера. После обучения декодер можно зафиксировать, а новые изображения получать, подавая разные варианты фазовой маски на SLM.

Две схемы генерации — snapshot и iterative

Snapshot — это «один бросок». Энкодер превращает шум в фазовую маску, маска загружается на SLM, свет проходит через декодер, и на сенсоре появляется изображение. Всё.

Iterative — вариант посложнее. Изображение рождается не мгновенно, а за несколько шагов: поле постепенно очищается от шума.

Итеративная модель
Итеративная модель

Реализовать это можно двумя способами: чисто оптически (каскад из нескольких SLM) или гибридно (проход света, цифровая коррекция, новая маска). Такой процесс лучше вытягивает детали и по качеству ближе к цифровым моделям.

Есть и компромисс — дистилляция. Сначала обучают полноценную итеративную модель, а потом «сжимают» её поведение в несколько шагов или даже в одну сложную маску. В итоге качество — почти как у итеративной, а скорость близка к snapshot.

Зачем всё это и что удалось сгенерировать

Эксперименты проводили в двух режимах: на реальном железе (SLM + камера) и в симуляциях, где учитывались дискретизация фаз, смещения и шумы. Для RGB брали три лазера — 450, 520 и 638 нм. Каждый канал обрабатывали отдельно, а потом складывали по интенсивности.

Начали с MNIST: система уверенно выдавала читаемые цифры — 3, 7 или 9.

Затем перешли к более сложным датасетам: лица (CelebA), бабочки (Butterflies-100) и картины в стиле Винсента ван Гога. Здесь применили итеративную схему: несколько проходов света плюс лёгкая цифровая коррекция между ними.

Для оценки использовали стандартные метрики: FID (чем меньше, тем ближе к реальным данным) и IS (чем выше, тем разнообразнее и «узнаваемее» картинки).

В snapshot-режиме FID составил 131 на MNIST и 180 — на Fashion-MNIST: неплохо для системы с фазовой дискретизацией и оптическими шумами. В iterative-режиме качество улучшилось: FID снизился, IS вырос, а статистическая проверка (t-test) подтвердила значимость улучшений.

Практический тест оказался ещё показательнее. Классификатор, обученный полностью на оптически сгенерированных MNIST, показал 99,18% точности на реальном тесте. Потеря всего 0,4% по сравнению с обучением на настоящих данных доказывает: распределение воспроизведено достаточно точно, чтобы данные годились и для ML-задач.

Слабые стороны тоже заметны. Там, где важны высокочастотные детали — фотореалистичные лица, текстуры, тонкие линии, — оптика проигрывает: ограничения накладывают апертура, space–bandwidth product и разрядность фаз. В цветных экспериментах артефактов больше, а цветовой охват уже, чем у цифровых моделей. В симуляциях CLIP-оценки почти догоняли «учителя» (например, для Van Gogh-style: 28,25 против 28,72), но реальные установки показывали больше сбоев: 3,3% отказов на Butterflies-100 и 6,8% — на CelebA.

Инженерный нюанс: качество напрямую связано с дифракционной эффективностью (η). Чем больше мощности доходит до сенсора, тем лучше FID. Добавление слоёв декодера тоже повышает качество при той же η.

Плюсы и минусы

Начнём с сильных сторон.

Главное — энергоэффективность. В оптике нет тактов и матричных умножений: свет сам распространяется и интерферирует. Для AR/VR это означает дольше работающую батарею и меньше нагрева.

Скорость. Интерференция занимает наносекунды, задержку задаёт лишь частота обновления SLM. Потенциально это миллисекунды на картинку, тогда как цифровым диффузионкам нужны сотни шагов.

Масштабируемость декодеров. Если удастся массово выпускать пассивные фазовые пластины, то устройства будут дешевле и надёжнее: у таких элементов нет питания и подвижных частей.

Дополнительный бонус — художественный эффект. Оптика, естественно, создаёт интерференционные текстуры: мазки и переходы выглядят убедительно даже без пиксельной точности.

Теперь — к проблемам.

Первое ограничение — физика. Есть предел детализации, связанный с апертурой, шагом фазовых элементов и длиной волны. Для тонких текстур, волос или резких границ оптика пока слабее цифровых сетей.

Фазовая разрядность. У SLM ограниченное количество дискретных уровней фаз. Если не учитывать этого при обучении, то качество падает. Решение есть — quantization-aware training, то есть обучение сети с учётом ограниченного числа фазовых уровней у SLM. Модель заранее «привыкает» к тому, что у неё не будет плавных значений, а только дискретные шаги. Но фундаментальное ограничение остаётся.

Стабильность. Любые смещения, вибрации или пыль на оптике могут сильно исказить картинку. В лаборатории это решают моделированием ошибок на этапе обучения, а для реальной жизни нужны калибровка и датчики.

Спекл-шум. Когерентный свет всегда даёт зернистость. Её можно уменьшать регуляризацией, усреднением по нескольким фазам или использованием частично когерентных источников, но полностью убрать не получится.

Цвет. Для RGB нужны несколько лазеров и точная синхронизация. Это усложняет систему и добавляет артефактов.

Интеграция с цифрой. Если картинку надо оцифровать и дальше обрабатывать, то часть выигрыша по энергии теряется на ADC и вычисления. Поэтому оптика особенно оправданна там, где изображение идёт напрямую «в глаз» или на сенсор.

Производство и безопасность. Массовый выпуск фазовых пластин требует стабильной литографии, а лазеры для потребительских устройств — сертификации и защиты.

Инженеры компенсируют часть проблем: учитывают квантование фаз при обучении, моделируют смещения, дистиллируют итеративные модели в короткие, комбинируют с цифровой дорисовкой. Это не убирает ограничений, но делает их управляемыми.

Что нас ждет дальше

Будущее оптической генерации вполне осязаемо.

Сначала появятся ниши, где важны низкое энергопотребление и минимальная задержка. Потом железо станет быстрее и точнее: новые SLM, метаповерхности, стабильные источники света. И только после этого возможна массовая интеграция в продукты.

Первый рынок — AR/VR. Картинка идёт прямо в глаза, и каждый миллиджоуль на кадр продлевает автономность гарнитуры. Задача — достичь таких разрешения и контраста, чтобы текст и интерфейсы были читаемыми, и при этом вписать систему в очки без лишнего веса.

Второй — декоративные и рекламные панели. Достаточно подсветки и лёгкого контроллера, чтобы получить носитель стилизованных картинок. Главная забота — надёжная литография и контроль качества.

Третий — гибридные системы. Оптика быстро формирует фон, крупные формы и стиль, а «цифра» дорисовывает детали. Такой компромисс экономит ресурсы, не жертвуя качеством. Здесь нужны энергоэффективные чипы оцифровки и лёгкие алгоритмы дообработки.

Есть также перспектива, которая особенно вдохновляет исследователей, — переход к 3D и голографии. Оптические декодеры изначально работают с объёмными полями, но для этого нужны многослойные конструкции и модели, учитывающие объёмную интерференцию. Путь длинный, но он ведёт к голографическим дисплеям и световым полям.

В сухом остатке мы имеем: оптическая генерация не заменит всю цифровую графику, но в нишах, где критичны энергия и задержка, она может стать стандартом. Инженерные инструменты уже есть — осталось сделать их стабильными и дешёвыми.

Комментарии (1)


  1. MasterMentor
    30.09.2025 11:35

    >>а тяжёлую математику решают интерференция и дифракция

    дифракция - частный случай интерференции :)