
Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.
Группа исследователей Университета Пенсильвании разработала аппаратно-программный комплекс WirelessTap, который снимает звук по вибрации телефона. Это принципиально новый способ прослушки, который не использовался ранее.
Теоретически, такие системы транскрибирования речи можно установить в общественных и публичных местах, школах, больницах, снимая в реальном времени текстовую расшифровку телефонных переговоров в помещении. Полученные тексты могут использоваться для профилирования граждан и обучения ИИ.
Система использует миллиметровый радар, то есть радиолокационную систему миллиметрового диапазона, в сочетании с системой распознавания речи на основе ИИ. Установка способна транскрибировать разговоры по слитной речи со словарным запасом 10 тыс. слов.

Точность распознавания постепенно снижается с расстоянием: от 59,25% на расстоянии 50 см до 2% на расстоянии 300 см.

С расстоянием увеличивается и количество галлюцинаций:

Исследование основано на проекте 2022 года, в котором использовались аналогичные технологии. Тогда система показала точность 83% при распознавании по списку из десяти слов. Но распознавание слитной произвольной речи — это кардинально новый уровень качества, по сравнению со списком из десяти слов.
Миллиметровый радар в диапазоне 77–81 ГГц регистрирует вибрации, которые передаются через наушник на смартфон. Такие же радары применяются в беспилотных автомобилях, датчиках движения и беспроводных сетях 5G. Исследователи протестировали атаку в реальных условиях, с участием пользователей, которые держат смартфон у уха.

Для обработки сигнала они донастроили опенсорсную модель Whisper с помощью техники Low-Rank Adaptation (LoRA), когда вместо изменения всех параметров модели добавляются небольшие обучаемые матрицы низкого ранга. Это позволяет адаптировать модель к новой задаче с минимальными затратами ресурсов.
Модель Whisper изначально обучена на чистом звуке и не способна эффективно распознавать зашумлённый сигнал. Однако LoRA позволяет донастроить всего 1% параметров Whisper специально для радиолокационных данных, улучшив результаты распознавания без перестройки модели целиком.

Хотя точность 60% далека от идеала, даже частичные совпадения ключевых слов могут иметь серьёзные последствия для безопасности. Например, дистанционное чтение по губам обычно распознаёт лишь 30−40% произнесённых слов, но в сочетании с контекстом всё равно помогает понять смысл разговора.
Аналогично, и новая система может выявить конфиденциальную информацию, если её грамотно использовать, дополнив контекстом и экспертными знаниями.
Научная статья "Wireless-Tap: Automatic Transcription of Phone Calls Using Millimeter-Wave Radar Sensing" опубликована в сборнике Proceedings of WiSec 2025: 18th ACM Conference on Security and Privacy in Wireless and Mobile Networks (PDF). В статье описана система, которая включает в себя программу для генерации синтетических данных, обработку и инференс в OpenAI Whisper ASR.
Спуфинг голосового сигнала
Учёные надеются, что результаты их исследования повысят осведомлённость общественности, чтобы люди стали более внимательными во время конфиденциальных звонков.
По мере развития технологий с каждым годом растёт риск злоупотребления искусственным интеллектом и сенсорными системами. Возможности органов чувств ограничены. Например, зрение ограничено очень узким диапазоном электромагнитного излучения 380−780 нм. Такая же проблема со слухом. Из этого можно сделать вывод, что достоверные полные данные об окружающем мире можно получить только приборами.

Звуковой сигнал также подвержен спуфингу. Можно предположить, что в будущем технологии позволят не только считывать, но и модулировать вибрации телефона с помощью наведённого сфокусированного излучения, так что звуковым сигналам по телефону (словам собеседника) нельзя будет доверять в полной мере.
Комментарии (25)

Vinitski
07.12.2025 16:12С трёх метров достаточно хорошего микрофона, чтобы услышать слова собеседника на том конце с точностью 100%.

Astroscope
07.12.2025 16:12Кэп просит прощения, что в данный момент сильно занят объяснением очевидного другим людям и не может отвлечься, поэтому попросил меня от его имени написать для вас примерно следующее; передаю своими словами насколько я сам его понял. С микрофоном очевидно, для чего он предназначен. Открыто установленный или умышленно скрытый - микрофон имеет только одно предназначение. А бытовой радар выглядит прибором, который не предназначен и не подходит для прослушивания, поэтому никогда не расценивается как угроза конфиденциальности, примерно эквивалентная микрофону. Оказывается, потенциально радар можно приспособить для выполнения несвойственной и не ожидаемой от него функции микрофона.

wazzard
07.12.2025 16:12Точность 2% на расстоянии в 300 см, это уровень распознавания "мычания" разговаривающего между слов.
Тут явно напрашивается возможность снимать данные сразу с 5-10 датчиков.
И не совсем понятно, возможна запись разговора обоих собеседников, через вибрацию телефона, или все таки только непосредственно наблюдаемого?

JM777
07.12.2025 16:12Похоже здесь почти никто не понял о чём идёт речь, судя по наивным комментам. О потенциальной технической возможности кого-нибудь подслушать, даже если микрофон ещё не успели поставить. Не о готовой технологии, а о потенциальной угрозе конфиденциальности, в том числе от бытовых устройств, если кто-нибудь заинтересованный вложит в соответствующие разработки много ресурсов.

LinkToOS
07.12.2025 16:12Даже так скажем - исследователи изо всех сил стараются доказать, что новые технологии потенциально опасны. Цель исследования не в том чтобы разработать устройство для прослушки, а в том чтобы доказать, что какие-нибудь злодеи непременно смогут такое устройство разработать. Микроволны + искусственный интеллект = Большая Апасность! (здесь должен быть знак "Осторожно, быстрый прогресс!". Но сам рисовать я не умею, а просить об этом ИИ не буду. Потому что Апасно!)

stalker_316
07.12.2025 16:12Ещё в лохматых годах придумали, как прослушивать на расстоянии с помощью лазера и дрожания оконного стекла...

KbRadar
07.12.2025 16:12И где это?

WaldemarsonTheForester
07.12.2025 16:12В каком смысле? Это давно используется. И уже в девяностых публиковали схемы устройств, которые "дрожат стеклом" так, чтобы затруднить работу подобным устройствам.
И даже не по стеклу: https://habr.com/ru/companies/intersect/articles/529330/
Хотя это уже из области потенциальных угроз.

jar_ohty
07.12.2025 16:12Чаще всего такой способ прослушки давал сигнал со столь низкой степенью разборчивости, что впору было нейросеть привлекать для того, чтобы оттуда извлечь хоть какой-нибудь смысл.

KbRadar
07.12.2025 16:12>Точность распознавания постепенно снижается с расстоянием: от 59,25% на расстоянии 50 см до 2% на расстоянии 300 см.
И как это измерялось?

Dolby
07.12.2025 16:12Не помню точно, но где-то в конце 80-х начале 90-х в журнале Юный техник была представлена схема просушки с помощью инфракрасного лазерного луча, отраженного от окна комнаты. Метод широко известный, принцип тот же и в купе с ML имеет намного больший потенциал практического применения, имхо

I_Horus_i
07.12.2025 16:12Какая-то фигня, если мы можем в 40см от человека установить шпионский радар, что мешает нам установить там микрофон?
Если мы считаем, что наличие "радара" и отсутствие "микрофона" даст особо тупым ощущение секюрности, то не понятно почему бы не снимать колебания корпуса радара или ещё что-нибудь такое.
Kreastr
То есть записать звук с 50 см сложно, а установить и запитать миллиметровый радар на диапазон 70 ГГц и никто нтчего не заподозрит?
DanilinS
Сейчас на рынке полно радарных датчиков присутствия человека. Миниатюрное батарейное устройство. Работают они на частотах 5.8 ГГц, 10ГГц, 24ГГц, 60ГГц а иногда на более высоких частотах 77 ГГц и выше.
Так что с наличием миллиметрового радара в квартире проблем нет.
Kreastr
Спасибо за объяснение. А как Вы считаете, что проше добавить незаметно в такой радар достаточно вычислительной мощности чтобы распознавать речь из радара или микрофон?
Moog_Prodigy
В сам радар можно ничего и не добавлять, пусть гонит по своему радиоканалу сырые данные куда нибудь за стенку рядом, а там уже можно поставить мощный вычислятор (или ретранслятор куда-то в облако).
KbRadar
Этих сырых данных там может и на гигабит в секунду набраться невзначай
Moog_Prodigy
Ну я щупал эти "бытовые" радары, там гигабитом и не пахнет в выходных данных. Ну точнее не вот конкретно эти из статьи, а миллиметровые на 24 Ггц. Вычислялка внутри встроенный asic, а наружу uart обычный торчит, со вполне себе уартовскими скоростями.
Astroscope
Для вывода результатов распознавания речи в виде plain текста этого очевидно достаточно. Остался вопрос роста вычислительной мощности прочей начинки радара, чтобы она могла этот текст извлечь из обрабатываемых ею сигналов - распознать речь, преобразовать в текст, и выдать распознанное через UART. Не уверен, что в контексте относительно массовых и не слишком дорогих устройств это не вопрос уже сравнительно близкого будущего.
fio
Если в устройстве есть (официально или не очень), то это общепонятная информация, что устройство может слушать. А вот если там радар, то совсем не очевидно что может.
DanilinS
Зачем там вычислительная мощность? Домашний радарный датчик по умолчанию подключен в внешнюю сеть для реализации функций умного дома. Отфильтровать поток от радара на звуковой диапазон и гнать наружу на сервера. А там как угодно обрабатывай.
И еще: такой датчик прекрасно видит биение сердца и движение легких при дыхании. ( например: R60ABD1 Радиолокационный датчик миллиметрового диапазона 60 ГГц , контролирующий дыхание, сон, биосенсорный модуль для дыхания и сердцебиения) И зачем пытаться снять информацию с сотового если можно снять информацию с горла человека? Мне кажется это будет намного проще.
Kreastr
А если почитать статью, то там вот пишут что это все же не фильтр а нейронка которую учили восстанавливать речь из шума который снимает радар.
Вопрос зачем это то, что меня и интересует. Зачем вообще радар если человек разговаривает по телефону? Уже есть в телефоне все что нужно для записи. А если не по телефону, то телефон скорее всего рядом. А если нужно слушать кухонные разговоры так проще ИМХО в бытовую технику микрофон/акселерометр добавить. Особенно если посмотреть на полученное качество в 60% на расстоянии в 50 см это прям супер полезно.
LinkToOS
Распознается то что он слышит, а не то что он говорит. Сигнал снимается с поверхности смартфона или наушника.
Это простой периодический сигнал, от большой площади поверхности с большой амплитудой движения. Паттерны соответствующие словам намного сложнее.