Наш голос может выдать информацию, которую мы предпочли бы сохранить в тайне. Фото: Университет Аалто / Микко Раскинен
Вы, вероятно, можете быстро определить по тону голоса друга, счастлив он или грустен, энергичен или измотан. Компьютеры уже могут проводить подобный анализ, а вскоре они смогут извлекать гораздо больше информации. По мнению доцента кафедры речевых и языковых технологий Тома Бэкстрёма, это должно вызывать у всех нас беспокойство. Личная информация, закодированная в вашем голосе, может привести к повышению страховых взносов или к рекламе, которая эксплуатирует ваше эмоциональное состояние. Личная информация также может быть использована для преследования, сталкинга или даже вымогательства.
«Когда кто-то говорит, в речевой сигнал встроено много информации о его здоровье, культурном происхождении, уровне образования и так далее. Эта информация передаётся вместе с речью, даже если люди этого не осознают», — говорит Бэкстрём, инженер-исследователь из Университета Аалто. Например, даже едва заметные особенности интонации или выбора слов могут выдать ваши политические предпочтения, а особенности дыхания или качества голоса могут быть связаны с определёнными заболеваниями.
Один из важных рисков заключается в том, что медицинская информация, полученная из голосовых записей, может повлиять на стоимость страховки или использоваться для продвижения лекарств. Однако Бэкстрём также указывает на возможность косвенного вреда.
«Страх перед слежкой или потерей достоинства из-за ощущения, что за людьми постоянно наблюдают, — это уже наносит психологический ущерб», — говорит он.
Например, работодатели могут извлекать личную информацию из голосовых записей, чтобы использовать её против сотрудников или для проверки кандидатов, а бывшие партнёры могут использовать такие инструменты для преследования или домогательств.
Хотя Бэкстрём говорит, что технология, позволяющая получить доступ ко всей этой информации, «ещё не совсем готова», исследователи работают над созданием защитных мер, чтобы проблема не стала слишком масштабной.
Как же инженеры могут решить эти проблемы?
Защита от злоупотреблений подразумевает передачу только той информации, которая строго необходима, и её безопасную доставку конечному получателю. Один из подходов заключается в том, чтобы отделить личную информацию и передавать только те данные, которые нужны для предоставления услуги. Речь также может обрабатываться локально на телефоне или компьютере, а не отправляться в облако, а акустические технологии могут гарантировать, что звуки записываются (или слышны) только в определённом месте.
Это относительно новые проблемы, вызванные стремительными технологическими изменениями и ростом объёмов данных. В 2019 году Бэкстрём и ещё несколько учёных создали международную исследовательскую сеть по вопросам конфиденциальности и безопасности речевых технологий. Команда только что опубликовала инструмент, который может ответить на один из фундаментальных вопросов в этой области: сколько информации содержится в записи речи?
«Чтобы обеспечить конфиденциальность, вы решаете, какая информация может быть раскрыта, а затем создаёте инструмент, который это гарантирует, — объясняет он. — Но в случае с речью мы не знаем, сколько информации содержится в ней. Очень сложно создавать инструменты, когда вы не знаете, что защищаете, поэтому в первую очередь нужно измерить объём этой информации.»
В статье предлагается метрика, с помощью которой можно определить, насколько точно можно установить личность говорящего на основе характеристик записи, таких как высота тона или лингвистическое содержание. Существующие метрики позволяют оценить риск распознавания, то есть вероятность того, что говорящего на записи можно соотнести с конкретной характеристикой, например с вероятностью наличия у него болезни Паркинсона.
Бэкстрём говорит, что эти подходы сложнее понять и обобщить. Новая метрика — первая, которая позволяет оценить, сколько информации содержится в аудиоклипе.
Чем лучше наука, тем лучше инструменты
Бэкстрём считает это исследование шагом на пути к информированию людей о конфиденциальности различных речевых технологий. «Я мечтаю о том, чтобы можно было сказать, например, что если вы предоставите запись какой-либо службе, то за 10 евро эта компания сможет сузить круг ваших потенциальных клиентов, скажем, до тысячи человек. Это то, что люди понимают, поэтому это можно было бы отразить в пользовательском интерфейсе». Тогда мы сможем начать обсуждать конкретные вопросы», — говорит он.
Полезные метрики нужны не только для общения с общественностью. Они также важны для разработки и оценки инструментов защиты конфиденциальности. В статье, только что опубликованной в Proceedings of the IEEE, команда Бэкстрёма представила первый всеобъемлющий обзор различных угроз и возможных стратегий защиты, а также наметила направления для дальнейших исследований. В статье также рассматриваются риски для конфиденциальности людей, которые не пользуются речевыми сервисами. Например, когда данные о вашем голосе могут быть записаны как фоновый шум.
Исследование показывает, что сохранение конфиденциальности — это не только техническая проблема, но и вопрос психологии и восприятия пользователей, а также дизайна пользовательского интерфейса.
"В интерфейсе должны быть способы сообщить, насколько конфиденциальным является взаимодействие", - говорит Бекстрем. Он также должен сообщать о компетентности или уверенности системы, чтобы помочь предотвратить случайные утечки информации или неправильные действия. "Надлежащее информирование об этих вещах помогает укрепить долгосрочное доверие к сервису", - добавляет он.
По мнению Бэкстрёма, решение проблем, связанных с конфиденциальностью, не должно быть обременительным, а может даже способствовать улучшению продукта или услуги. Например, удаление личной информации из голосовых сообщений позволит передавать меньше данных, что снизит сетевой трафик и затраты.
«Мы часто воспринимаем конфиденциальность и полезность как взаимоисключающие понятия, но многие технологии, обеспечивающие конфиденциальность, также полезны», — заключает он.
