Что с точки зрения CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?
Закаливание детектора автомобиля радарными точками

Доклад естественно без погружения в детали, но всё равно очень любопытный. Несколько моментов, на которые стоит обратить внимание:
работают в рамках BEV-Fusion с собственными доработками;
подчёркивают важность возможности безопасно включать и отключать разные каналы (лидар, радар, камера) — критично для отказоустойчивости;
радарный детектор слабее лидарного: в первую очередь данные сильно разреженные и шумные;
метрики только по радару не приводились — оценивали в связке с камерами;
радар выступает скорее как резервный источник, если лидары по какой-то причине стали недоступны;
наибольший прирост метрик дали агрегация радарных точек из прошлых кадров и добавление индекса конкретного радара как дополнительного признака;
предложили собственную метрику, более «толерантную» к ошибкам локализации на дальних и перекрытых объектах (например, ошибка 10 м на 100 м дистанции не критична для запасного контура CV).
Год назад я делал для коллег обзор методов сенсорного слияния и мы тоже выделяли BEV-Fusion. Идея хоть и не новая, но до сих пор актуальна — именно потому, что построение BEV-карты в этом подходе не завязано жёстко на лидар. Каждый сенсор независимо проецируется на вид сверху с помощью матрицы проекции. Поэтому можно, условно, отключить лидары и всё равно получить BEV-представление сцены по радарам и камерам.
В теории, есть и минусы:
гипотеза «земля плоская»: камерные признаки сверху могут не совпадать с лидарными в местах сложного рельефа - например человек, стоящий на возвышенности, спроецируется дальше своего реального положения;
углы установки сенсоров должны быть стабильны относительно земли, иначе проекции будут «плыть» — особенно это заметно будет для объектов на больших дистанциях при раскачивании беспилотника.
От идеи до реальности: как мы создаём лидары

Обзорный доклад про особенности лидаров автономного транспорта. Я, например, наконец-то запомнил, что:
круговой лидар - чаще всего твердотельные излучатели на 950 нм (число излучателей = числу лучей или колец в облаке точек);
дальнобойные секторальные лидары (Robosense M1) обычно строятся на одном мощном излучателе 1550 нм, который зеркала разбрасывают по вертикали и горизонтали.
Интересно, что 1550-нм лидары могут быть в разы мощнее 950-нм в основном из-за безопасности для зрения.
Ещё один любопытный момент — работа днём и ночью:
длину волны больше 1550 нм не используют, чтобы приёмник не путал сигнал с естественным тепловым излучением, например людей;
днём возникает конкуренция лотраженного лидарного луча с отражённым солнечным светом (и чем ближе длина волны к видимому диапазону, тем сильнее).

Ночью лидарное облако точек в отсутствии посторонних излучений должно быть чище, а метрики детекторов — выше. Но на датасете Nuscenes модель BEV-Fusion, например, показывает ночную метрику ниже дневной! Возможно, потому что камера ночью хуже детектит (C+L).

Авторы BEV-Fusion этот парадокс не комментируют. Вероятное объяснение — в датасете NuScenes: ночных кадров мало, разметка сложнее и шумнее, что снижает обобщаемость моделей.
Переходы. Светофоры. Роботы
Доклад о том, как тяжело работать с редкими примерами и «длинным хвостом» распределения.
Часть проблем решается «докруткой» системы и дообучением: добавили кадры с перекрытым светофором - смогли различить негорящую лампу от закрытой проезжающим автомобилем, признак среднего цвета оказался лишним - упростили модель.
Другая часть (например, предсказание намерений автомобилистов на переходе) требует уже не эвристик, а сквозного ML-подхода, где распознавание и планирование объединены в одной модели. Яндекс только начал работу в этом направлении. На мой взгляд, это самая интересная часть — внедрение универсального подхода, заменяющего набор эвристик на обучение на данных, потому что первые со временем кончаются или становятся слишком сложными, а данные не закончатся, они будут приходить постоянно в процессе всей эксплуатации.
Обзор системы очистки сенсора автономного ТС
Про очистку сенсоров беспилотных грузовиков (спойлер: воздушно-капельные форсунки). Несколько моментов:
лидары чистят по частям - сначала одну половинку, потом другую, чтобы не терять все точки сразу;
можно чистить не по расписанию, а по факту загрязнения — это экономит омывайку;
для камер собирают датасет с «грязными/чистыми» примерами, для лидаров — тоже, но всегда сверяют с камерой, иначе сложно понять источник пропажи точек.
Как Embedded снижает стоимость нейронных сетей?

Вторая часть доклада — про оптимизацию кода под железо. Приводили наглядный пример кода, удвоился удвоился в размере, будучи написанным более эффективным под конкретную платформу. Такой код, как утверждают авторы, может ускорить даже CUDA-инференс на порядки! Обычно те, кто обучает модели, так глубоко в инференс не копают, но в идеале к этому стоит стремиться.
Дизайн автономного грузовика
Про дизайн обтекателей сенсорного набора автономного грузовика. Эти кожухи должны быть и функциональными, и эстетичными.
Любопытный момент: перед выбором места для логотипа сделали «карту загрязнения» кузова. В зонах, которые сильнее всего пачкаются во время езды, логотип ставить явно не стоит.