В конце декабря 2022 года команда ученых из нескольких университетов США опубликовала новую работу, посвященную прослушиванию телефонных переговоров. Для прослушки они избрали достаточно необычную схему: слова вашего собеседника, воспроизводимые через динамик смартфона, отслеживаются с помощью встроенного датчика — акселерометра. На первый взгляд такой подход не имеет смысла: почему бы просто не перехватывать сам аудиосигнал или данные? Но дело в том, что в современных операционных системах для смартфонов телефонные переговоры максимально защищены и большинство приложений не имеют возможности записывать звук во время телефонного звонка. А вот доступ к акселерометру совершенно свободен, что открывает новые способы слежки. Это типичная «атака по стороннему каналу» и пока, к счастью, совершенно теоретическая. Но со временем подобные исследования могут перевести вопрос нестандартного прослушивания в практическую плоскость.
Особенности акселерометров
— это специальный датчик, измеряющий ускорение. Вместе с другим датчиком, гироскопом, он помогает определять изменения положения телефона в пространстве. Акселерометры устанавливают во все смартфоны уже более 10 лет. Они помогают «поворачивать» изображение на экране в соответствии с ориентацией телефона. Иногда они используются в играх или, например, в приложениях «дополненной реальности», когда на экран передается изображение с камеры телефона, а поверх накладываются какие-то виртуальные элементы. Благодаря отслеживанию вибраций телефона во время движения работает шагомер. А если вы переворачиваете телефон, чтобы выключить звук входящего звонка, или стучите по экрану, чтобы разбудить устройство, эти действия также распознаются с помощью акселерометра.
Как с работой этого стандартного, но «невидимого» датчика сочетается разговор по телефону? Голос вашего собеседника воспроизводится через встроенный динамик. От динамика корпус смартфона вибрирует. Оказывается, акселерометр имеет достаточную чувствительность, чтобы эти вибрации распознавать. Об этом исследователи знали уже довольно давно, но создать полноценную систему подслушивания мешал относительно низкий уровень этих вибраций. В последние годы ситуация изменилась к лучшему к худшему: в смартфоны начали устанавливать более мощные динамики. Зачем? Чтобы улучшить громкость и качество звука, например, при просмотре видео. Косвенно это улучшает и качество звука при разговорах — динамик ведь используется тот же. Американские ученые наглядно показывают это в работе:
Слева — относительно старый смартфон 2016 года, не оснащенный мощными стереодинамиками. В центре и справа — спектрограмма с акселерометра более современного устройства. Во всех случаях через динамик шесть раз произносится слово «Zero». И получается, что на старом смартфоне звук практически не отражается в данных с датчика ускорения, а на новом можно различить какой-то паттерн, примерно соответствующий речи. Лучше всего это получается на графике справа, где динамик был переведен в режим громкой связи. Но и при обычном разговоре, когда телефон прижат к уху, есть достаточно данных для анализа. Получается, акселерометр работает в качестве микрофона!
И вот здесь давайте сделаем паузу и оценим, насколько сложную задачу поставили перед собой авторы работы. Из акселерометра получается очень, очень плохой микрофон. Предположим, что мы заставили пользователя установить вредоносную программу, которая пытается прослушать переговоры по телефону, или встроили модуль для прослушивания в популярную игру, которую установила жертва. Как говорилось выше, наша программа не имеет права напрямую записывать разговор, но может фиксировать состояние акселерометра. Число запросов к этому датчику ограничено и зависит от конкретной модели датчика и смартфона. Например, в одном исследованном телефоне можно опрашивать датчик 420 раз в секунду, в другом — 520 раз. В операционной системе Android, начиная с 12-й версии, внесено еще и программное ограничение: не более 200 раз в секунду. Это называется частотой дискретизации, которая ограничивает диапазон частот итоговой «записи звука». Он в два раза меньше частоты дискретизации, с которой мы можем получать данные с датчика. Получается, что в лучшем случае исследователям доступен частотный диапазон от 1 до 260 герц.
А диапазон частот, используемый в телефонии для передачи человеческого голоса — от 300 до 3400 герц. И то, что «подслушивает» акселерометр — это не голос: если попытаться воспроизвести такую «запись», мы получим дребезжание, лишь отдаленно напоминающее изначальный звук. Для анализа этих «голосовых следов» исследователи применили машинное обучение. Они создали программу, которая берет известные образцы человеческого голоса и сопоставляет их с теми данными, что удалось снять с датчика ускорения. Такое обучение в дальнейшем позволяет с определенной погрешностью расшифровать голосовую запись, содержание которой неизвестно.
Шпионские технологии
Среди исследователей разнообразных методов прослушивания это достаточно известный прием. Авторы новой работы ссылаются на множество предшественников, которые не раз показывали, как можно получать голосовые данные с использованием самых, казалось бы, неподходящих для этого предметов. Вот реальный пример шпионских технологий: из соседнего здания атакующие направляют невидимый луч лазера на окно помещения, разговор в котором надо подслушать. От человеческого голоса стекло в окне еле заметно вибрирует, и эта вибрация фиксируется отраженным лазерным лучом. Таких данных оказывается достаточно, чтобы восстановить содержание приватной беседы. А в 2020 году ученые из Израиля показали, как можно восстанавливать речь из вибраций обычной лампочки. Звуковые волны вызывают небольшие изменения в яркости лампы, а уж они фиксируются на расстоянии до 25 метров. Подслушивание с помощью акселерометра очень похоже на такие шпионские трюки, но с одним важным отличием: «жучок» уже встроен в устройство, которое надо прослушивать.
Да, но с какой надежностью удается восстановить содержимое разговора из данных датчика ускорения? Несмотря на то что новая работа американских исследователей серьезно повышает качество прослушивания, этот метод пока нельзя назвать надежным. В 92% случаев по косвенным данным удалось отличить одного абонента от другого. В 99% случаев с помощью данных с акселерометра получилось правильно определить пол собеседника. Распознать реальную речь удалось с точностью 56% — половину слов, по сути, не удалось восстановить. Да и набор данных в этом тесте использовался крайне ограниченный: три человека в тестовой записи последовательно называли цифры.
Что вообще не изучалось в данном исследовании, так это возможность анализа речи владельца смартфона. Если мы слышим только звук из динамика, у нас есть только половина разговора. Когда мы прижимаем телефон к уху, на акселерометр должны передаваться вибрации и от нашей речи, но их качество наверняка будет куда хуже, чем вибрации от динамика. Подробнее это еще предстоит выяснить в новых исследованиях.
Туманные перспективы
К счастью, перед учеными не стояла задача создать устройство для прослушивания здесь и сейчас. Они лишь испытывали новые методы вторжения в приватное пространство людей, которые могут стать актуальными в будущем. Такие исследования позволяют производителям устройств и разработчикам программ разрабатывать защиту от теоретических угроз превентивно. Кстати, то самое ограничение на 200 запросов к датчику ускорения в секунду, внедренное в Android 12, не особо помогает: точность распознавания в реальных экспериментах снизилась, но ненамного. Гораздо сильнее мешали помехи, которые естественным образом вносил владелец смартфона во время разговора, — своим голосом, движением рук или перемещением в пространстве. Надежно отфильтровать эти вибрации от полезного сигнала авторам работы так и не удалось.
Наиболее важным моментом данного исследования стало использование именно встроенного в смартфон датчика: все предыдущие методы полагались на какое-то дополнительное оборудование для прослушивания, здесь же «все включено». Несмотря на скромные практические результаты, это интересная работа, показывающая, как много потенциальных возможностей для утечки данных содержит столь сложное устройство, как смартфон. Кстати, совсем недавно мы писали, как сигналы модулей Wi-Fi в телефонах, компьютерах и других устройствах невольно выдают расположение этих устройств в пространстве, как за своими хозяевами шпионят роботы-пылесосы и подглядывают IP-камеры.
И пусть для обычного пользователя подобные методы слежки вряд ли будут представлять опасность, было бы неплохо, если бы в технологиях будущего учитывались даже такие минимальные риски отслеживания, подслушивания и подглядывания. Но, поскольку речь идет об установке вредоносной программы на смартфон, у вас всегда есть возможность ее отследить и заблокировать.