Билайн

Мой голос – мой пароль. Голосовая биометрия в банках. Биометрическая идентификация – технологии и перспективы Биометрия голоса

Идентификацию личности по голосу с целью предоставления доступа к данным называют голосовым замком. Каждый человек обладает уникальным голосом, который не может быть подделан.
В отличие от материального идентификатора личности (токен, смарт-карта, жетон) или пароля, которые могут быть утеряны или намеренно переданы злоумышленникам, биометрические технологии, используемые для информационной безопасности, являются неотъемлемыми. А значит, обеспечивают больший процент надежности того, что доступ к данным получит «правильный» человек.

Сотрудник «Центра речевых технологий» довольно легко сумел получить сведения о состоянии счета своей жены в контактном центре её банка. Достаточно было позвонить в банк, назвать пароль и ее паспортные данные, чтобы оператор, следуя инструкциям банка, сообщила ему секретную информацию своего клиента.

Этого бы не произошло, если бы идентификация личности владельца счета проводилась по биометрическим признакам. В данном случае, при разговоре по телефону идентификация могла бы быть проведена по голосу. При этом голосовая биометрия заметно выделяется по надежности и удобству среди других модальностей: идентификации по форме лица, отпечатков пальцев, сетчатке глаза.

Во-первых, голосовая биометрия является бесконтактной и обеспечивает возможность удаленной идентификации и верификации клиента. А это делает ее удобной при использовании в колл-центрах.
Во-вторых, для регистрации клиентов банка в базе данных контактного центра не требуется специальных устройств, чтобы получить биометрические образцы. Запись голосового пароля ведется с любого доступного устройства, снабженного микрофоном, будь то гарнитура, стационарный или мобильный телефон или смартфон.

Наконец, голосовая биометрия легко объединяется с биометрией по лицу, обе эти модальности являются бесконтактными, что удобно при удаленной идентификации. Мультимодальная биометрия обеспечивает 100% точность идентификации личности.

В настоящий момент мы проводим пилот в одном американском банке по внедрению мультимодального биометрического доступа со смартфонов клиентов. Специальное приложение банка, разработанное под Android, регистрирует клиента в системе путем фотосъемки лица на смартфон и записи парольной фразы. Далее заполняется небольшая анкета с персональными данными клиента. Для того чтобы войти в мобильный банк, клиент фотографирует себя, говорит в смартфон парольную фразу, система ищет совпадения в своей базе данных, а затем открывает доступ к страничке мобильного банка со счетом.

Способы применения идентификации по голосу в банках

1. Регистрация клиента в системе и присвоение ID . Существует несколько типов регистрации (первичной записи голосового образца клиента), которые в зависимости от потребностей могут применяться в контакт-центрах банков. При текстонезависимом методе регистрации совсем не важно, что говорит клиент: он просто наговаривает в микрофон несколько слов, на основании чего система получает «рисунок» его речи, по которому будет узнавать его в дальнейшем.

Если же идентификация ведется по паролю (текстозависимая), то при регистрации в системе клиент либо говорит статичную парольную фразу, по которой будет проводиться его идентификация в дальнейшем. Или парольная фраза может быть динамичной. В этом случае клиент повторяет за системой случайные элементы в определенной последовательности, например: «34, 52, 84».

2. Электронная цифровая подпись для подтверждения сделки. Внедрение голосовой подписи (подтверждения личности клиента по голосу) в качестве дополнительной услуги контакт-центра позволит повысить безопасность платежных операций и уровень удовлетворенности клиентов. Реализация такого инструмента возможна при автоматическом вызове клиента и проведении процедуры голосовой верификации при попытке совершить транзакцию. Образец голоса абонента сравнивается с образцом из базы, в случае успешной идентификации транзакция разрешается.

3. Ликвидация угроз мошенничества. Не секрет, что существует определенный набор лиц, для которых регулярное совершение мошеннических действий в отношении банков является основным средством заработка. А поскольку личное присутствие держателя счета в офисе банка во многих случаях предоставления услуг не обязательно, то мошенники могут безнаказанно повторять свои схемы удаленно значительное количество раз в одном и том же банке. Анализ голоса в таких случаях оказывается практически единственным способом своевременно выявить потенциальные мошеннические действия, и, как следствие, сократить прямые убытки от таких действий. С помощью технологии идентификации диктора можно сравнивать голоса совершающих звонки в контакт-центр с некоторым списком потенциальных мошенников или между собой.

4. Укрепление внутренней информационной безопасности. Инсайдерские угрозы и вопросы минимизации данных рисков традиционно актуальны для руководителя службы информационной безопасности любого банка, так как несанкционированный доступ к конфиденциальным ресурсам (счета и персональные данные клиентов, финансовые отчеты, банковские приложения) и утечка корпоративной информации могут выражаться в колоссальных потерях — как финансовых, так и репутационных. Одним из самых эффективных решений данной проблемы может быть внедрение системы биометрической идентификации сотрудников.
Вне сомнений голосовая биометрия найдет свое применение во многих странах мира. Российские речевые технологии достигли такого уровня развития, что способны проводить высококачественную удаленную идентификацию по биометрическим признакам клиента банка.

Если еще недавно биометрическая идентификация держателей банковских карт считалась экзотикой, то сейчас она стала совершенно привычной для десятков и сотен тысяч пользователей в Бразилии и Индии, Польше и Саудовской Аравии, Японии и Колумбии.

Клиенты рассчитывают на многоканальность и ожидают получить удобный, знакомый и безопасный сервис вне зависимости от того, какой канал или интерфейс они используют. Банкам придется инвестировать в развитие интегрированной архитектуры и предлагать удобный доступ и высокую безопасность данных и финансовых средств клиента.

480 руб. | 150 грн. | 7,5 долл. ", MOUSEOFF, FGCOLOR, "#FFFFCC",BGCOLOR, "#393939");" onMouseOut="return nd();"> Диссертация - 480 руб., доставка 10 минут , круглосуточно, без выходных и праздников

Калашников Дмитрий Михайлович. Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума: диссертация... кандидата Технических наук: 05.13.01 / Калашников Дмитрий Михайлович;[Место защиты: ФГБОУ ВО Пензенский государственный университет], 2017.- 196 с.

Введение

Глава 1. Обзор методов и устройств защиты персональных данных на основе биометрической голосовой информации и предварительной цифровой обработки сигналов 15

1.1. Общее состояние защиты персональных информационных данных 15

1.2. Оценка стойкости нейросетевого распознавания биометрия-код 17

1.3. Информационная мера качества исходных данных 17

1.4. Функциональная модель преобразователя биометрия-код 21

1.5. Классическая мера Хэмминга 23

1.6. Практическое применение преобразователей биометрия-код для защиты исполняемого кода в системе голосовой идентификации 24

1.7. Необходимость классификации звуковых фрагментов речи на тональные и шумовые 26

1.8. Обзор методов измерения периода основного тона тональных звуков 34

1.9. Использование линейных предсказателей 38

1.10. Нелинейный алгоритм выявления периодичности сигнала 42

1.11. Линейное предсказание ожидаемого периода основного тона 45

1.12. Оценка длины речевого фрагмента, используемого нейросетевым вокодером нового поколения, для автоматического обучения биометрической системы голосовым параметрам диктора «Свой» 48

1.13. Оценка длины речевого фрагмента, необходимого для обучения вокодера, распознающего одиночные звуки речи 50

1.14. Оценка длины речевого фрагмента распознавания

1.15. Мел-кепстральные коэффициенты 51

1.16. Сегментация речи на отдельные биометрические элементы 54

1.17. Марковская модель распознавания речи

Выводы по главе

Глава 2. Математическое моделирование идентификации связной речи 67

2.1. Фрагментатор однородных звуков и пар звуков речи диктора «Свой» в нейронных сетях 67

2.2. Предсказатель периода основного тона диктора по текущим и предшествующим значениям 73

2.3. Вычисление среднего значения периода основного тона и допустимых границ отклонений 75

2.4. Классификатор тон/шум 76

2.5. Методы обращения матриц в алгоритме линейного предсказателя 79

2.6. Дискретное статистическое описание длительности интервалов между шумовыми звуками речи и между тональными звуками 85

2.7. Определение детерминированных участков речи и вариации частоты основного тона 91

Выводы по главе 106

Глава 3. Программное обеспечение действующего макета голосовой аутентификации 108

3.2. Обучение готовых биометрических параметров на нейронной сети... 114

3.3. Кластеризация звуковых фрагментов речи 116

3.4. Аутентификация по парольному слову 119

Выводы по главе 125

ГЛАВА 4. Тестирование алгоритма биометрической голосовой аутентификации при различных условиях внешнего воздействия 127

4.1. Экспериментальное тестирование программы на вероятность

появления ошибок первого рода 127

4.2. Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии незнания парольного слова посторонним человеком 133

4.3. Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии знания парольного слова посторонним человеком 136

Заключение 139

Введение к работе

Актуальность темы. В настоящее время остро стоит вопрос сохранения конфиденциальности различного рода информации: государственной, промышленной и т.д. Этой проблеме посвящено большое число работ, в которых предложены различные методы криптографической аутентификации и биометрической аутентификации. Криптографическая аутентификация основана на хранении и переработке специальной кодированной информации. Биометрическая аутентификация основана на персональных особенностях субъекта (отпечатки пальцев, образцы почерка, особенности лица, сетчатки глаз).

К сожалению, эти методы обладают следующими недостатками. Криптографические методы позволяют обеспечить максимальную надежность и безопасность процедуры аутентификации, однако перекладывают ответственность за хранение ключей (секретной информации либо материального носителя) на пользователя, который, кроме очевидного нежелания принимать на себя подобные обязательства, зачастую не обладает необходимыми навыками правильного использования и безопасного хранения секретов. Биометрия традиционно применяется лишь для идентификации пользователей в системах паспортно-визового контроля граждан. Использование классических биометрических технологий сравнения биометрического образа пользователя с шаблоном не позволяет обеспечить конфиденциальность персональных данных пользователя в открытых гражданских информационных системах.

Биометрический метод аутентификации по голосу характеризуется простотой применения. Данному методу не требуется дорогостоящая аппаратура, достаточно микрофона и звуковой платы. Но при использовании биометрического метода аутентификации по голосу возникает ряд проблем. Одной из важнейших проблем является качество голосовой идентификации. В настоящее время вероятность ошибки распознавания персоны по голосу достаточно высока. Требуется разработка новых алгоритмов для более четкого выявления биометрических параметров из голосового сигнала. Второй важнейшей проблемой является нестабильная работа известных устройств в условиях шума. Важную проблему составляет голосовая идентификация при многообразии проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д.

Построение алгоритмов голосовой идентификации и соответствующих устройств, лишенных перечисленных недостатков, является актуальной задачей, имеющей научное, техническое и социальное значения. Это в первую очередь определяет актуальность работы. Большой вклад в развитие биометрической аутентификации был внесен такими учеными, как Н. Н. Акинфиев, С. П. Баронин, А. И. Иванов, М. В. Назаров, Ю. Н. Прохо-

ров, В. И. Романовский, Г. С. Рамишвили, В. Н. Сорокин, В. А. Утробин, В. Госсет, М. Грей, Дж. Дарбин, A. K. Джейн, Д. Клун, Н. Левинсон, К. Пирсон, Р. А. Фишер, Р. Хэмминг и другие.

Для практической реализации предложенных методов необходимо создание эффективных технических средств. Известны следующие мировые компании, занимающиеся развитием методов голосовой идентификации: Agnitio , Auraya Systems , Authentify , KeyLemon , Nuance и др.

Недостатки технологий, используемых этими компаниями, заключаются в серверной обработке данных, т.е. все биометрические данные отправляются на обработку на сервер, что, в свою очередь, является потерей конфиденциальности для пользователя. Вероятность ложного распознавания у существующих автоматов достаточно высока. Это связано с тем, что существующие алгоритмы не выделяют достаточного числа биометрических параметров из звукового сигнала, а также тем, что отсутствуют стандарты сравнения голосовых биометрических параметров.

Цель диссертационной работы состоит в разработке новых методов, реализующих их алгоритмов и программного обеспечения, осуществляющих достоверную биометрическую аутентификацию личности по голосу в условиях высокого постороннего шума. Для достижения поставленной цели необходимо решить следующие задачи :

    разработать методику и алгоритмы повышения точности определения частоты основного тона на любых промежутках звукового сигнала;

    разработать методику аутентификации пользователя, положив в качестве определяющего фактора частоту основного тона;

    разработать методику и алгоритмы фильтрации звукового сигнала для более точного выделения периода основного тона на любом отрезке звукового сигнала и подавления шумовой компоненты сигнала при соотношении сигнал/шум равном единице;

    построить однослойную нейронную сеть стандарта ГОСТ Р 52633.5 для преобразования голосовых биометрических параметров в код доступа;

    построить узкополосный фильтр, принимающий на вход частоту основного тона диктора. Использовать формулу фильтра на различных гармониках сигнала для получения биометрических параметров и преобразования их в биометрический код;

    построить новый алгоритм фрагментации звукового сигнала и использовать получившиеся отдельные тональные фрагменты речи в качестве биометрических параметров, преобразованных в биометрический код;

    реализовать макет обучения и аутентификации пользователя по парольной голосовой фразе. Провести тестирование вероятностных характеристик (вероятность ошибки первого и второго рода – ошибки в опровержении тестируемого пользователя и ошибки в принятии постороннего пользователя соответственно).

Методы исследования. В работе использованы методы математической статистики, теории вероятностей, теории искусственных нейронных сетей и цифровой обработки сигналов. Для реализации экспериментов использовался объектно ориентированный язык С++, библиотеки Qt и QWT, среда разработки QtCreator и среда математического моделирования MathCAD.

Научная новизна диссертационной работы заключается в следующем:

    Разработан алгоритм оценивания речевых звуковых статистических параметров. На основе дискретно-континуального описания длительности звуков потока осмысленной речи определен такой параметр, как средняя длина звука и приведен алгоритм его оценки. Обобщены методы оценивания значений математического ожидания и дисперсии периода основного тона. Предложены формулы построения узкополосного фильтра звукового сигнала, позволяющие улучшить качество выделения сигнала при высоком уровне шума.

    Обобщен численный метод построения линейного предсказателя по выделению периода основного тона, что позволило значительно увеличить точность и быстродействие предсказателя. Разработана методика непокадровой обработки сигнала в линейном предсказателе, что значительно снизило вероятность ложного определения тона на участке звукового сигнала.

    Разработана нелинейная математическая модель фильтрации звукового сигнала для более точного выделения периода основного тона на любом отрезке звукового сигнала. Построенная процедура фильтрации позволила улучшить существующий классификатор тон-шум и выделять все тональные участки речи на звуковом файле.

    Разработан алгоритм нейросетевого преобразования голосовых параметров в биометрический код доступа. На вход нейронной сети подаются векторы биометрических параметров голосовых сигналов, которые затем преобразуются в биометрический код. Векторы биометрических параметров голосовых сигналов используются для построения таблиц весовых коэффициентов. В результате применения предложенного алгоритма каждому голосовому сигналу ставится в соответствие индивидуальный код. Использование полученных кодов позволило минимизировать ошибку первого и второго рода в работе голосовой аутентификации.

    Разработан численный алгоритм выделения векторов биометрических данных, основанный на использовании тональных звуковых участков речи, отделенных от внешних шумов и пауз. Данные векторы получены на нескольких гармониках звукового сигнала и участвуют в процедуре обучения нейронной сети. Показано, что данные векторы являются информативными в биометрическом плане и используются в процедуре обучения нейронной сети для улучшения качества распознавания голосовых образов.

6. Построен и программно реализован алгоритм фрагментации и классификации звуковых сигналов. Научная новизна заключается в использовании построенного в диссертации алгоритма нейросетевой сегментации звукового сигнала. На базе этого алгоритма получены векторы всевозможных тональных звуков, содержащиеся в парольной голосовой фразе диктора. Данные векторы преобразованы в параметры биометрия-код и поданы на обучение нейронной сети. Использование данных параметров позволило улучшить качество распознавания диктора в системе голосовой аутентификации.

Практическая значимость работы. Построен автомат, позволяющий определять диктора по произносимой парольной фразе. Разработан программный комплекс, в рамках которого реализованы адаптивные цифровые алгоритмы обработки речевых сигналов. Предложен алгоритм распознавания биометрических образов в сигнале. Алгоритм реализован в виде нейронной сети. Разработанный в диссертации метод, по сравнению с известными методами обработки цифровых сигналов, обладает следующими существенными преимуществами. Важнейшим преимуществом является способность автомата, реализующего данный метод, настраиваться на частоту речи диктора при аутентификации пользователя. Шумоподавление ведется даже при соотношении сигнал/шум равном единице. Внедрены нейронные сети стандарта ГОСТ Р 52633 для преобразования голосовых биометрических параметров в код доступа, что позволяет получить устойчивый длинный пароль на этапе аутентификации. Уменьшена до значения 10- 7 вероятность ошибки аутентификации пользователя при случае незнания пользователем парольной фразы и до значения 10- 2 при случае, если пользователю известно данное парольное слово/слова. Известные в литературе автоматы обладают следующими характеристиками: вероятностная характеристика ошибки второго рода составляет всего 10 –1 при вероятности ошибки первого рода равной 10– 2 .

Программный комплекс направлен на обеспечение защиты информации и на устранение ее утечки. Для обеспечения защиты и обезличивания человека, имеющего доступ к информации, предлагается внедрение технологии голосовой аутентификации в состав системной проверки доступа. В качестве систем проверки предлагаются: интернет-кабинеты с глобальными или локальными выходами. Данные системы обычно используются государственными и муниципальными учреждениями, а также некоторыми учебными заведениями. В результате действующий терминал позволит определять человека по произносимой парольной фразе с достаточно низкой вероятностью ошибки второго рода (по полученным в диссертационной работе статистическим данным она должна быть не выше 10- 7), а также обеспечит пользователю быстрый, защищенный и удобный вход в личный кабинет.

Достоверность и обоснованность результатов , сформулированных в диссертации, обеспечена корректным использованием математических методов и сопоставлением теоретических утверждений с результатами тестовых и натурных экспериментов.

Основные положения, выносимые на защиту :

    алгоритм выделения речевых статистических параметров на основе дискретно-континуального описания длительности звуков потока осмысленной речи;

    численный метод построения линейного предсказателя по выделению периода основного тона при непокадровой обработке данных и при использования речевых статистических параметров диктора;

    нелинейная математическая модель фильтрации звукового сигнала, осуществляющая шумоподавление сигнала при соотношении сигнал/шум равном единице;

    алгоритм выделения векторов биометрических данных;

    алгоритм фрагментации и классификации звуковых биометрических «фонем»;

    алгоритм построения нейронной сети для распознавания биометрических особенностей человеческой речи;

    макет обучения и аутентификации пользователя по парольной голосовой фразе.

Внедрение результатов работы и связь с научными программами. Полученные результаты исследований реализованы в организации АО «ПНИЭИ» (г. Пенза) при разработке макета программного обеспечения «Аутентификация пользователя по голосовой фразе». Имеется акт о внедрении результатов диссертационной работы.

Разработан программный комплекс (свидетельство № 2016Э13464 от 21.10.2016 о государственной регистрации программы для ЭВМ) решения задачи построения средства нейросетевого биометрического распознавания по голосу при уровне шума выше уровня сигнала. Указанный программный комплекс, использованный в исследовательской, производственной и проектно-конструкторской деятельности АО «ПНИЭИ» (г. Пенза) при исследовании и разработке алгоритмов биометрической аутентификации, содержит программное решение актуальной задачи разработки инструментальных средств автоматизированной парольной идентификации личности человека по голосовой фразе. Программа способна осуществлять подтверждение личности в условиях шума, сопоставимого уровню речевого сигнала.

Исследования поддержаны грантом «У.М.Н.И.К», договор № 8909ГУ/2015 от «21» декабря 2015 г. о предоставлении гранта Федеральным государственным бюджетным учреждением «Фонд содействия развитию малых форм предприятий в научно-технической сфере» для проведения исследований по теме «Разработка средства нейросетевого биометрического распознавания по голосу при уровне шума выше уровня сигнала».

Апробация диссертации. Основные положения диссертации докладывались и обсуждались на следующих международных конференциях: шестой и седьмой международной научно-технической конференции «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (г. Пенза, 2013, 2014); Международной научно-технической конференции «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (г. Пенза, 2014); научно-практической конференции «Вклад молодых ученых в развитие экономики Поволжья» осенняя сессия 2016 г. (г. Пенза, 2016); научной конференции конкурса «Ректорские гранты» (г. Пенза, 2015).

Личный вклад автора. Все основные результаты, представленные в диссертационной работе, сформулированы и получены автором самостоятельно. Работы опубликованы в соавторстве с научным руководителем, которому принадлежит формулировка решаемой проблемы и концепция ее решения. В работе описан разработанный автором алгоритм получения речевых статистических параметров на основе дискретно-континуального описания длительности звуков потока осмысленной речи. В работе автор самостоятельно разработал новый алгоритм шумоподавления. В работах автор построил метод обезличивания персональных данных по голосовому парольному слову, усовершенствовал известные линейные алгоритмы обработки звуковых сигналов. В программном комплексе автором разработаны основные алгоритмы и составлены программные коды. Также автор провел численные эксперименты, которые подтверждают возможность практического использования результатов.

Публикации. По материалам диссертационного исследования опубликовано 8 работ, в том числе 3 работы в журналах из перечня ВАК РФ.

Структура и объем работы. Диссертация состоит из введения, четырех глав с выводами, заключения, списка использованных источников и 2 приложений. Общий объем работы составляет 188 страниц, из них 170 страниц основного текста, включая 87 рисунков. Список литературы содержит 83 наименования.

Функциональная модель преобразователя биометрия-код

Основным функциональным элементом средства высоконадежной биометрико-криптографической аутентификации является преобразователь биометрия-код. Работа преобразователя биометрия-код основана на использовании специальных методов преобразования нечетких биометрических данных в двоичное целое число фиксированной разрядности - кодовый отклик. При этом нечеткие биометрические данные пользователя «Свой» преобразовываются в стабильный кодовый отклик, называемый кодом «Свой», а нечеткие биометрические данные пользователей «Чужие» преобразуются в случайные (некоррелированные) кодовые отклики «Чужой». Функциональная схема работы преобразователя биометрия-код приведена на рисунке 1.2.

Таким образом, основная функциональная характеристика преобразователя биометрия-код состоит в том, что он должен сворачивать многомерное поле непрерывных состояний нестабильного биометрического образа «Свой» в точку кода «Свой», принадлежащую некоторому конечному дискретному полю возможных состояний этого ключа. Второй функциональной характеристикой преобразователя биометрия-код является то, что случайные биометрические образы «Чужой» должны порождать на выходах преобразователя случайные выходные кодовые отклики. Множество биометрических образов Множество кодовых откликов

Внутренняя структура преобразователя биометрия-код формируется в ходе специальной процедуры, называемой обучением. Процедура обучения принимает в качестве параметров множество примеров биометрического образа «Свой», множество биометрических образов «Чужой», каждый из которых представлен одним или несколькими примерами, и кодовый отклик «Свой», а результатом работы процедуры является сформированный преобразователь биометрия-код с параметрами, позволяющими выполнять вышеуказанные функциональные характеристики.

Параметры обученного преобразователя биометрия-код, дополненные некоторой дополнительной информацией (например, идентификатором или именем пользователя), формируют биометрический контейнер. 1.5. Классическая меРА ХэмминГА

Процедура упорядочивания биометрических образов должна быть высокоразмерной и учитывать изменения всех биометрических параметров и всех их возможных комбинаций, что становится технически невыполнимо уже для нескольких десятков учитываемых биометрических параметров, поэтому единственным возможным способом избежать этого является переход из пространства входных непрерывных высокоразмерных биометрических образов в пространство выходных дискретных кодовых откликов. При этом сортировка биометрических образов становится линейной и одномерной, а работа автомата упорядоченного перебора биометрических образов - тривиальной.

Основной метрикой в пространстве выходных кодовых откликов является мера Хэмминга - количество несовпавших разрядов кодовых откликов и различные модификации этой меры, описанные далее. Мера Хэмминга к рассчитывается по формуле п h = YS iyi\ (1.5.1) /=1 где Xj - значение /-го разряда первого кодового отклика; уі - значение /-го разряда второго кодового отклика; п - длина кода; Ф - сложение по модулю 2. При помощи этой метрики можно установить меру близости между двумя биометрическими образами «Чужой», либо меру близости биометрического образа «Чужой» к биометрическому образу «Свой», для которого было произведено обучение средства высоконадежной биометрической аутентификации. Использование меры Хэмминга для упорядочивания биометрических образов имеет смысл только для определенного преобразователя биометрия-код, обученного на некотором биометрическом образе «Свой».

1. Основным различием предлагаемого способа от всех остальных считается присутствие кодируемых под определенные особенности среды и исполняемого кода автоматов переустройства длинных случайных входных данных в конкретный код длиной в 256 бит.

2. Центром механизма переустройства считаются настраиваемые хэш-функции (НХФ), являющиеся обобщенным понятием преобразователей биометрия-код сравнительно с преобразуемыми ими данными. Сущность предлагаемого способа кроется в исходных данных тестируемого кода. Можно выделять два вида исходных данных: параметры переустройства НХВ и многомерные параметры . Характеристики переустройства НХФ переставляются взамен исполняемого кода программы совместно с автоматом, реализующим НХФ. При запуске программы ей на осуществление с исполнением передаются входные многомерные характеристики. С поддержкой автомата НХФ хранимые и отданные характеристики применяются для восстановления еще одного блока исполняемого кода программы.

3. После процесса восстановления компилируется код, и автомат НХФ перебегает к декодированию надлежащих блоков, важных для продолжения работы программы. По характеристикам состояния НХФ или же лишь только по входным характеристикам возобновить исполняемый код непросто. Это разрешает использовать НХФ для заключения задачки обороны исполняемого кода от возникновения взлома. Схема обороны любого блока компилируемого кода представлена на рисунке 1.3.

Оценка длины речевого фрагмента, используемого нейросетевым вокодером нового поколения, для автоматического обучения биометрической системы голосовым параметрам диктора «Свой»

Для получения информативного парольного слова для аутентификации необходимо вычислить статистические параметры, описывающие их качество и различие.

Системы голосовой идентификации, которые принимают в качестве параметров коэффициенты частотного спектра, имеют схожие вероятностные ошибки с системами, анализирующими речевой сигнал по времени. Вероятность ошибки первого рода характеризует отказ пропуска «Своему». На данный момент среди существующих голосовых систем эта вероятность равна 10_1. Вероятность ошибки второго рода характеризует пропуск «Чужого». Частота появления данной ошибки зависит лишь от режима использования метода. В случае, если постороннему человеку известна парольная фраза и при этом он не пользуется диктофоном, успех его обхода системы равен примерно 1 % при условии, что его голос близок к записанному. В противном случае злоумышленнику может понадобиться до 1010 попыток для успешного взлома.

Тем не менее, пройти под видом другого диктора в существующих системах становится возможным, если известна и записана на диктофон парольная фраза изначального диктора. В данном случае вероятность второго рода значительно увеличивается. Отсюда вытекает потребность в решении задачи предотвращения перехвата голосового пароля. Также одним из способов решения данной задачи служит использование одновременной идентификации человека по строению лица. Помимо этого, некоторые специалисты по системной безопасности подключают датчики движения для выявления источника звука.

В настоящее время широко распространены временные процедуры (линейные предсказания) и частотные процедуры полосовой фильтрации в вокодерах. И те, и другие процедуры существенно искажают биометрию пользователей и одновременно не могут дать высокого сжатия речевой информации.

Исследования в рамках работ пензенского научно-исследовательского электротехнического института, в которых автор принимал участие, показали, что существует реальная возможность создавать новый класс вокодеров, опирающийся на новый тип описания голосовых сигналов. В основу нового типа описания речи положено использование того факта, что согласованная речь состоит из затухающих колебательных процессов, повторяющихся с периодом основного тона. Например, так выглядит фонема «а» (рисунок 1.11). Ттон=60

Из рисунка 1.11 можно сделать вывод, что звук состоит из периодически повторяющихся затухающих колебаний. Следовательно, для экономного описания процесса необходимо измерить скорость затухания и частоту (число горбов) внутренних колебаний. При этом сложный речевой процесс, описываемый классическими вокодерами с использованием 14-18 параметров, будет описываться только четырьмя параметрами: 1) амплитуда звука; 2) период основного тона; 3) затухание внутренних колебаний; 4) частота внутренних колебаний. Такой подход к кодированию речи позволяет в несколько раз уплотнить информацию. Очень важным является то, что в новом типе «колебательного» описания речевого сигнала различные фонемы оказываются достаточно схожими. Например, фонемы «о» и «а» будут отличаться только периодом основного тона. Пример фонемы «о» приведен на рисунке 1.12.

Сравнивая рисунки 1.11 и 1.12, мы можем сделать вывод о том, что фонему «о» и фонему «а» формирует одно и то же колебательное звено. Между собой фонемы отличаются только периодом основного тона. Этих данных в литературе нет. В классической литературе по обработке речи была сделана попытка связать между собой первую и вторую фонемы (см. рисунок 4.3 в ). Необходимо учитывать затухание частоты, так как это позволяет определять границу звука. Затухание является прямым, а не косвенным параметром речеобразования. Фонема «о» имеет меньший период основного тона в сравнении с «а», но одинаковую частоту заполнения и одинаковое затухание

Проведенные исследования показали, что, опираясь на новый принцип описания звуковых сигналов, можно построить простые «нечеткие» правила классификации «фонем» и синтез их оптимального нечеткого описания. Например, описание фонем «у» и «ю» имеют практически одинаковую форму строения, но разные периоды основного тона. Эта ситуация отображена на рисунке 1.13. О 50 Щ!\ ft h 200 100 I Т=50 "у” Т=60 "ю" Рисунок 1.13- Примеры двух похожих фонем «у» и «ю», отличающихся только периодом основного тона Существует возможность значительно упростить теорию описания речеобразования, выведя простые нечеткие (размытые) правила различения фонем. Они будут простыми для подавляющего большинства фонем. Эти правила будут описывать «среднестатистического» говорящего. Отклонения от этих правил будут являться не чем иным, как биометрическими особенностями говорящего. Видимо, именно такой путь даст возможность повышать качество вокодеров, коэффициент сжатия речи, достоверность передачи биометрических параметров речи.

Следуя путем синтеза нечетких правил (нечеткого распознающего фонемы автомата) предположительно удастся повысить в 1,5-2 раза коэффициент сжатия речи. Предпринятая попытка создать вокодер, учитывающий затухание колебательных процессов, показывает техническую реализуемость этого направления.

Еще одним путем повышения коэффициента сжатия речи является выделение фонем и кодирование фонем, а не кадров. Кадровая кодировка речи избыточна. Обычно в вокодерах используется 44 звуковых кадра в секунду. В среднем человек произносит 11 фонем в секунду. То есть вокодеры осуществляют 4-кратное дублирование одной фонемы. Если мы знаем нечеткое правило эволюции фонем (как одна фонема трансформируется в другую), то достаточно однократно передавать данные фонемы. Это должно позволить сжать дополнительно информацию в 3-4 раза. Если передавать параметры речи в центре фонем и между ними, то дополнительное сжатие будет примерно равно двум.

Таким образом, новый подход, построенный на оценке затухания периодов основного тона и внутренних колебаний, является перспективным, и позволяет повысить коэффициент сжатия речи в несколько раз. Технически реально иметь вокодеры с выходным потоком в 600 бит/с. Одновременно может быть решена задача точной передачи биометрических параметров для вокодеров с потоком 2400 и 4800 бит/с.

Аутентификация по парольному слову

Использование методов и алгоритмов, использованных при построении существующих вокодеров, не делает возможным применение данных методов в построении фрагментаторов голосовых сигналов. Причина, по которой нельзя применять эти методы, заключается в том, что вокодеры, обладающие высоким качеством передачи голосовых данных, выделяют огромное число классов, поток которых равен порядку 2400 бит/с. Данное число характерно вокодерам, построенным на алгоритмах линейного предсказателя. Необходимо минимизировать данное число потока данных. В случае использования вокодеров, дающих поток порядка 1200 бит/с, число полученных классов уменьшается, но, тем не менее, остается достаточно большим. Также в данном случае теряются биометрические данные самого пользователя .

Решением данных вопросов является использование биометрических аппаратов, способных обеспечивать систему достаточным количеством информации. Также выходом является построение автоматического фрагментатора речи, классифицирующего участки голосового сигнала. Использование уже имеющихся фрагментаторов не обеспечивает систему достаточным количеством информации из-за того, что их алгоритмы основаны на равномерной покадровой обработке голосового сигнала . Равномерное разбиение голосового сигнала обычно варьируется на потоке 20-60 кадр/с. Также одним из недостатков существующих фрагментаторов является полное пренебрежение внутренними изменениями внутри фрагментов звука, т.е. появляется потеря знания об изменении самих биометрических параметров.

Можно сделать вывод, что основной целью создания устойчивых систем голосовой биометрической аутентификации является преждевременная обработка звукового сигнала, сочетающая в себе построение эффективного фрагментатора кодовой фразы, который учитывает личные характеристики пользователя и синхронизирует выявленные участки речи на этапе обучения программы, т.е. на данных участках речи не должно быть расхождение по фазе звука . Также полезным свойством нового фрагментатора была бы возможность самообучения и выявления особенностей диктора на этапе аутентификации программы после длительного промежутка времени относительно обучения данного диктора.

К моменту аутентификации пользователя программа должна накопить всевозможные статистические характеристики, четко расклассифицировать выделенные участки речи. В случае биометрической идентификации необходимо создать автоматический фрагментатор, способный классифицировать звуки, благодаря заранее созданному словарю и обращающийся к базе данных созданных звуков, отдельно для каждого пользователя. Обе системы аутентификации и идентификации должны быть подвергнуты предварительным испытаниям на вероятность появления ошибки первого и второго рода. Эта задача решена в диссертации с применением следующих подходов. Разработан алгоритм контроля периода основного тона пользователя. Для каждого человека имеется свой отдельный набор параметров периода основного тона, который подсчитывается при записи звукового файла. Математическое ожидание длины периода основного тона считается индивидуальной характеристикой, несмотря на то, что у многих людей она может совпадать. Наименьшее значение периода основного тона характерно в основном женскому полу и лицам до 16 лет. Данное значение имеет значительное различие по сравнению с мужским голосом. Некоторые мужчины имеют басовый характер голоса, и среднее значение их периода превышает значение среднестатистического человека.

Этап предобработки голосовой фразы в случае идентификации или аутентификации должен оперироваться средними характеристиками диктора с учетом множество параметров без использования современных возможностей вычислительной мощности компьютера. Данное условие должно учитываться автоматическим фрагментатором-классификатором голосовой фразы, речи идентифицируемого пользователя.

Басовый голос из-за большой длины периода основного тона имеет достаточно большое разнообразие изменений по амплитуде сигнала внутри исследуемого участка. Данная особенность приводит к расширению окна обработки речевого фрагмента, эта проблема может быть решена путем прогнозирования изменения важных биометрических характеристик. Несмотря на данные факторы, фрагментатор-классификатор обязан тратить одинаковые вычислительные ресурсы для разных типов людей. Эти принципы заложены в разделе 3 главы 2 при построении практической модели фрагментации звуковой фразы.

Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии незнания парольного слова посторонним человеком

Процедура «LPCJ5» - фильтр линейного предсказателя, на выходе которого имеем значение периода основного тона «period LPC» (формула 3.1.7). На процедуру подается длина кадра «TV», номер отсчета начала и конца кадра «7V7 и N2», порядковый номер кадра «kadr», количество коэффициентов автокорреляционной функции, «dmposonjjenod» - отклонение от нуля в автокорреляционной функции, «error» - вектор ошибки с предыдущего кадра, вычисляемый с помощью процедуры «LPCJor error».

В процедуре выполняется подсчет автокорреляционной функции погрешности предсказания: N/An-1-к r(k)= У ew(n)e(n + к),kе0,N/An-l, (3.1.10) а в блоке 6 определялось, при каких значениях щп ще[щ,п2], автокорреляционная функция погрешности предсказания г(к) максимальна, что соответствует выделению максимумов (пиков) в спектре речевого сигнала. Для этого минимизировался функционал: є гм=г(п0) та Ле[пЬп2]. (3.1.11) При этом щ - минимальная длина периода основного тона, щ = inf Т0Т- п2 -максимальная длина периода основного тона, п2 = sup Тот. Полученное значение определяем как п. Находим максимальное значение периода в рамках точной нижней и верхней грани, после чего переходим к формуле Т ±от п Гт-у, (3.1.12) 0, гт /, где у - пороговое значение, определяемое в процессе настройки.

Процедура «Ма8htabirovanie_v» масштабирует каждый кадр входного сигнала в заданном диапазоне для сравнения каждого кадра по корреляции. Все детерминированные участки приводятся к одинаковому константному масштабу от-1 до+1.

Процедура «mashtabirovamejJoX» принимает на вход сигнал определенной размерностью «N_N» и аппроксимирует сигнал «ogib» на определенную длину «Nogib». То есть сохраняется рисунок сигнала, изменяется лишь количество отсчетов в нем.

Процедура «Ogibayshayjjokadr» - подсчет огибающей по кадру, где «у» -фильтр размерностью «N_N» с определенной гармоникой; «Nach», «Коп» -начало и конец массива по параметру «у»; «kadr» - математическое ожидание периода основного тона; «ogib» - получаемая огибающая; «Nogib» - размерность огибающей.

После проведения предобработки сигнала и выделения необходимых биометрических параметров данные поступают на преобразователь биометрия-код, состоящий из следующих процедур и функций: void netlr.koef (int kolobrazov, int Nobrazov, double obrazy, int &razmer, double &net); void netl: :norm net (int kolobrazov, double sigma, double Mat OG al, int razmer, double &net); void CCalculateADQ::CalculateInputADQ (int imageCount, float coefficientsArr, float averageArr, float dispersionArr, float qualityArr); void netS::SimpleTraining (int weights Number, const int ConnectionArr, int imageCount, int keyArr, float averageArr, float weightsArr); void netSr.NormalizationTrainmg (int weights Number, const int ConnectionArr, int imageCount, float dispersionArr, float qualityArr, float weightsArr).

Процедура «Ьф -вычисление коэффициентов Фурье из сформированных образов (биометрических параметров). «Nobrazov» - размерность одного образа. akol obrazov» - количество образов, поданных на нейронную сеть. На выходе процедуры - матрица «net» размерностью . Каждый вектор из 196 компонент сформирован из коэффициентов Фурье рассматриваемого сигнала.

Процедура формирования заключается в обработке сигнала различными окнами, вычислением коэффициентов Фурье вырезанных этими окнами функций и формированием итого вектора по специальному алгоритму.

Процедура «normnet» - нормировка образов «Свой» относительно математического ожидания и дисперсии образов «Чужой». Образы «Чужой» сформированы предварительно путем накапливания голосовой базы из 10000 образов. База сформирована в результате проводимого сбора в рамках внутренней работы АО «ПНИЭИ» в 2012-213 гг. Нормировка образов осуществляется по формуле net[g][/] = - у, i _ 0..kol obrazov, g = 0.. 196, (3.2.1) чужойШ где Мчужой - вектор математического ожидания образов «Чужой»; 64yyK0U[g] вектор дисперсий образов «Чужой».

Процедура «CalculatelnputADQ» подсчитывает математическое ожидание, дисперсию и качество параметров образов «Свой». Качество каждого параметра рассчитано путем отношения среднего значения параметра к его дисперсии.

Процедура «SimpleTraining» производит заполнение и запись таблицы весовых коэффициентов в отдельный.1x1 файл для дальнейшего его использования в момент обезличивания. В результате проведенной процедуры формируется первоначальное обучение первого слоя. На вход процедуры подается таблица связей нейронов, относительно которой формируются параметры, принимающие значения «0» и «1», а также случайно сгенерированный код доступа «key». Число весов «weightsJayerl» на слое равно 24. Обучение ведется путем корректировки знаков весовых коэффициентов у части входов нейрона. Корректировку знака осуществляют таким образом, чтобы вероятность появления заданного отклика на выходе нейрона при предъявлении примеров образа «Свой» увеличивалась (число ошибок выходного кода уменьшалось). Корректировку следует осуществлять по одному входу. Если смена знака весового коэффициента корректируемого входа дает обратный результат, то корректировку следует отменить и перейти к корректировке знака следующего весового коэффициента. Процедура «NormalizationTraining» осуществляет обучение первого слоя сети, используя входное качество и дисперсию, полученные из функции «CalculatelnputADQ».


Каждый из нас способен узнать своих родных и знакомых по походке, силуэту, прическе, иногда почерку, но в первую очередь, конечно, по голосу и лицу. Это никого не удивляет и кажется абсолютно естественным. В то же время большинство почему-то с недоверием относится к различным системам, которые обещают идентифицировать человека по характерным лишь для него признакам. Ведь мы же путаем иногда голоса по телефону, принимая незнакомца за кого-то из близких, так почему «машина» не может ошибиться? И как ей в таком случае доверять?

Прародительницей биометрических технологий считается биология: представители науки всегда пытались систематизировать и объяснить различные признаки и свойства особей, проявляющиеся во время экспериментов. В конце XIX в. ученые Фрэнсис Гальтон и Карл Пирсон, выявляя закономерности в наследственности людей, применили методы вариационной статистики при анализе их наследственных признаков, чем положили начало науке биометрии.

До 2001 г. возможности биометрии применялись преимущественно спецслужбами для выявления преступников, защиты государственной тайны и сверхважной коммерческой информации.

Но после чреды террористических актов биометрические технологии, что называется, шагнули в массы. Уже никого не удивляет функция доступа к данным по отпечатку пальца, предлагаемая во многих моделях ноутбуков. Однако до сих пор специалисты по биометрии приводят примеры из фантастических фильмов, чтобы объяснить, каким образом можно использовать подобные технологии.

Между тем возможности биометрии многогранны: решения, созданные на ее основе, применяются в системах контроля и управления доступом, для организации доступа к личным кабинетам в веб, а также к персональной информации и мобильным терминалам.

В качестве идентификатора могут выступать лицо, ладонь, отпечаток пальца, радужная оболочка глаза или голос - все то, что ни один человек не может оставить дома или передать кому-то.

Речь - основное средство коммуникации для людей. Каждый человек использует голос для общения, причем как непосредственного, так и с помощью различных каналов связи (GSM, PSTN, VoIP). Запись же речи несет в себе массу информации не только о содержании сообщения, но и о личности говорящего. Именно поэтому речь, а точнее, фонетические ее образцы как биометрические характеристики эффективно используются в качестве улики в криминалистике с середины прошлого века.

Метод идентификации по голосу основывается на том, что у каждого индивидуума свой неповторимый голосовой рисунок, который зависит от его пола, физических особенностей строения голосовых связок и полости носа, формы рта, а также от таких характеристик, как частота и амплитуда. Точность биометрической идентификации по голосу соответствует 97 %.

При их внедрении нет необходимости в установке дополнительного оборудования как для передачи, так и для фиксации речи;

Характеризуются высокой скоростью поиска фонетического образца голоса в архиве образцов речи в режиме реального времени.

Разработанные компанией «Центр речевых технологий» (ЦРТ) программные решения для создания и ведения фоноучетов, а также осуществления автоматической идентификации по голосу основываются на таких методах исследования голоса и речи, для которых не имеют значение язык, акцент, используемый диалект, а также само содержание речи.

Процедура поиска (идентификации) интересующего «диктора» заключается в автоматическом попарном сравнении «голосовых моделей», в которых закодированы индивидуальные биометрические характеристики голоса и речи «дикторов». По результатам сравнения выводится ранжированный список фонограмм, содержащих с указанной вероятностью речь интересующих «дикторов».

Система автоматически выделяет биометрические признаки голоса и речи «дикторов» тремя независимыми методами и в соответствии с этим строит «модели голоса»:

При применении спектрально-формантного метода на основе различных спектральных характеристик речевого сигнала, анализа поведения первых трех и/или четырех формант, биометрической информации о строении речевого тракта (см. рис);

В случае использования метода основного тона на основе различных спектральных характеристик речевого сигнала, отражающих вибрации голоса, а также множества статистических и динамических параметров интонационного контура;

При применении метода с использованием смесей гауссовых распределений производится выделение дикторозависимых биометрических признаков из речевого сигнала, их последующее моделирование и классификация по методу опорных векторов. Сравнение голосовых моделей может производиться двумя способами:

С единственным шаблоном, соответствующим проверяемой личности - такая процедура называется верификацией или сравнением «один к одному». Результатом в этом случае обычно является число, отражающее вероятность того, что сравниваемые шаблоны принадлежат одному лицу;

Со всеми зарегистрированными шаблонами (без предварительного выбора шаблона и ввода номера или кода). В качестве результата возвращается список нескольких наиболее похожих шаблонов (с наибольшими вероятностями, полученными при сравнении).

Система биометрического распознавания речи встраивается в требуемые бизнес-процессы и за считанные секунды идентифицирует и верифицирует голос человека, информируя оператора о положительном или отрицательном результате сравнения.

Идентификация по голосу является бесконтактным, этически корректным методом получения биометрической информации. Взаимодействие с системой идентификации по голосу не вызывают у человека раздражения при снятии «образца» и в ходе дальнейшей процедуры. Кроме того, голос является единственно доступной биометрической характеристикой для распознавания личности по телефону.

Мультимодальная биометрия

В случае использования одного биометрического признака (одной биометрической модальности) для идентификации личности существует вероятность ошибки системы. Это связано с целым рядом причин:

Качеством образца. Не все люди имеют определенные биометрические признаки. По различным данным, до 5 % населения не обладают отчетливыми отпечатками пальцев. В частности, пожилые люди имеют деформированные и стер-тые рисунки пальцев, а дети - несформировавшиеся. Все это также увеличивает вероятность получения ложного отказа при регистрации биометрических образцов в системе.

Неправильным взаимодействием пользователя с биометрической системой в процессе регистрации. Выбор неправильной позы, выражение сильных эмоций на лице при фотографировании для образца повышают возможность возникновения ложного отказа при идентификации.

Схожестью отдельных биометрических признаков (например, голосов или лиц) у различных людей, что приводит к увеличению межклассовой схожести. Это, в свою очередь, способствует появлению ошибок при идентификации личности.

Погодными условиями.

Мультимодальные биометрические системы могут устранить многие ограничения унимодальных систем, поскольку при их использовании одни биометрические признаки компенсируют недостатки, присущие другим.

Мультимодальная система идентификации личности, разработанная ЦРТ, объединила голосовую и лицевую биометрию. В 2011 г. дочерняя компания «ЦРТ-Инновации» стала участником кластера информационных технологий инновационного центра «Сколково», где ведет работу над созданием мультимодальных биометрических систем, предназначенных для использования в сфере государственной и корпоративной безопасности, а также в области телекоммуникаций.

Совмещение голосовой и лицевой биометрии является естественным ходом развития биометрических технологий из-за широкого распространения соответствующих «бимодальных» устройств: сотовых телефонов, коммуникаторов, цифровых фото- и видеокамер, ноутбуков. Наличие таких бимодальных устройств значительно упрощает процесс получения биометрических образцов, процесс регистрации личности в биометрической системе, понижает стоимость самой системы и т. д.

Метод идентификации по лицу представляется также одним из наиболее социально допустимых биометрических методов. Эта технология достаточно легко интегрируется в другие существующие системы, так как фотографии являются основным идентификационным форматом для водительских прав, паспортов и иных удостоверений личности. Фото- или видеосъемка лица не представляется раздражающим процессом, потому что люди привыкли к постоянному присутствию видеокамер в офисах, торговых центрах и других общественных местах. Техника сканирования лица в биометрической индустрии занимает второе место после отпечатков пальцев

Коммерческое применение биометрических технологий в системах доступа

Современный человек вынужден помнить пароли от почтовых ящиков, интернет-магазинов, рабочего места (в среднем на каждого обывателя приходится четыре часто используемых символьных пароля, которые время от времени приходится менять, записывать где-то, снижая при этом надежность доступа к своим аккаунтам). Вход в офис, спортивный клуб, въезд на парковку ограничиваются картой/брелоком доступа. Это те артефакты и та информация, которые крайне нежелательно забыть или потерять.

Система автоматической биометрической аутентификации по голосу и/или лицу заменяет и дополняет традиционные системы доступа по карточкам, секретным словам и паролям в контакт-центрах, электронных банкингах, интеренет-магазинах и других отраслях бизнеса, где необходимо общение с клиентом как личное, так и с использованием каналов связи. Кроме того, система применима в офисах и на рабочих местах в целях снижения риска утечки и ограничения доступа к коммерческой информации.

Разработанная в ЦРТ система доступа на основе технологии автоматической идентификации личностей по голосу (см. табл.) и дополненная идентификацией по лицу может служить как самостоятельное решение, так и совместно с другими биометрическими модальностями и традиционными системами доступа.

Уникальность голосовой биометрии состоит в том, что это единственная биометрическая модальность, которая позволяет идентифицировать человека по телефону, что важно, например, при удаленном доступе к различным услугам, криминалистической идентификации, где единственным доказательством является запись телефонного разговора подозреваемого. Кроме того, голосовая идентификация не требует применения специализированного дорогостоящего оборудования, нужен только микрофон. При этом по уровню надежности голосовая биометрия не уступает, а по некоторым параметрам превосходит другие системы биометрической идентификации.

Биометрические системы доступа нашли применение в самых различных сферах деятельности:

Правоохранительной и судебной (экспертиза);

Таможенной;

Правительственной и военной;

Финансовой;

Туристической.

Основными задачами, которые решают биометрические системы доступа, являются:

Контроль доступа в системах информационной безопасности (государственные и правительственные учреждения, телебанкинг и автоматические call-центры);

Контроль физического доступа (в основном государственные и правительственные учреждения);

Усиление безопасности применения банковских карт (АТМ-киоски).

Использование технологий биометрической идентификации в системе доступа является важным аспектом для обеспечения безопасности на всех уровнях: в каналах связи, сети Интернет, при физическом доступе на объекты и в помещения. Биометрические решения оперируют неотъемлемыми характеристиками человека, существенно снижая угрозы осуществления мошеннических операций в финансовых компаниях, несанкционированного доступа в стратегически важные помещения, а также организации беспорядков на объектах массового скопления людей.

С развитием средств общения с клиентом открываются новые возможности для бизнеса, но в равной степени возрастает и риск мошенничества со стороны потребителей услуг и персонала. В случае создания базы голосов злоумышленников при автоматической аутентификации речи легко выявляются и пресекаются преступные намерения со стороны недобросовестных клиентов. Допустим, контактцентр банка или оператора связи в качестве идентификационной информации использует фамилию, имя, отчество, дату рождения и паспортные данные клиента - сведения, которые можно купить и найти в Интернете. Воспользовавшись полученными данными, любой может навредить клиенту компании - блокировать номер телефона, узнать баланс, подключить дополнительные услуги. Для пресечения подобных действий зачастую применяют секретное слово, которое также можно передать другому или узнать незаконно. В то время как использование технологий голосовой биометрии позволит не только определить, что голос не принадлежит пользователю услуг, но и сформировать базу голосов злоумышленников в целях пресечения повторения аналогичных действий с их стороны.

Решения с использованием голосовой биометрии особенно эффективны при внедрении в организациях с развитой сетью филиалов. Общая база биометрических данных сотрудников и пользователей услуг обеспечивает надежную защиту от действий мошенников, кражи пропусков и паролей и выполнения операций от чужого имени вне зависимости от того, обслуживаются ли клиенты в филиале организации, по телефону или через Интернет.

Применение биометрических технологий во внутренних и внешних процессах коммерческих компаний не только позволяет увеличить безопасность, сократив случаи мошенничества, повысить удобство общения с различными электронными автоматическими системами персонала и клиентов, но и сократить ТСО на обслуживание систем управления доступом.

Редакция Единого портала Электронной подписи предлагает вниманию читателей авторский материал доктора технических наук, профессора Савченко Владимира Васильевича о проблеме речевой вариативности устной речи применительно к введению в эксплуатацию Единой биометрической системы.

Scopus Author ID: 56927771300

ORCID: 0000-0003-3045-3337

Скоро исполнится год со дня выхода в свет приказа Минкомсвязи России от 25 июня 2018 г. № 321 "Об утверждении порядка обработки, включая сбор и хранение, параметров биометрических персональных данных в целях идентификации, порядка размещения и обновления биометрических персональных данных в Единой биометрической системе, а также требований к информационным технологиям и техническим средствам, предназначенным для обработки биометрических персональных данных в целях проведения идентификации" (зарегистрирован в Минюсте России 04.07.2018 под номером № 51532), и это явный повод оценить текущую ситуацию с точки зрения его выполнения.

Единая биометрическая система (далее - ЕБС) создается в стране в целях, если говорить об экономике, создания технических условий и возможностей для автоматической верификации и обслуживания российскими банками своих клиентов в режиме удаленного доступа (через смартфоны).

Согласно данным "Ростелекома", как официального оператора ЕБС в России, более 140 банков на сегодняшний день собирают биометрию в своих 5 тысячах с лишним отделениях по всей стране. К концу года в этот процесс должны включиться все сколько-нибудь крупные российские кредитные учреждения, обладающие универсальной лицензией Центробанка РФ. Однако уже на первом этапе создания и использования ЕБС в работе банков стали возникать проблемы . Так, нередко клиенты испытывают сложности с регистрацией биометрии в банках. Известны случаи, когда записывать голоса клиентов приходилось по несколько раз подряд, а длительность процедуры возрастала с 2-3-х нормативных минут до 30—40 минут и более. Об этом, в частности, подробно сказано в газете "Коммерсант" от 31 мая 2019 в статье "Биометрия лицом не вышла ". Одновременно в этой статье освещается инициатива Минкомсвязи по введению в практику работы банков регулярных дополнительных проверок качества биометрических данных с целью отбраковки непригодных для использования образцов.

Логика такой инициативы представляется очевидной, если вслед за специалистами "Ростелекома" главной причиной вышеупомянутых проблем с наполнением ЕБС считать низкое качество биометрических данных, поступающих в систему из банков. Но это не единственная проблема, и даже не главная, если говорить не только о наполнении, но и о дальнейшем использовании ЕБС в работе банков с клиентами. С указанной точки зрения на первый план выходит известная из лингвистики проблема внутридикторской вариативности устной речи . Отметим, она никак не связана с применяемыми банками информационными технологиями и техническими средствами.

Согласно п. 13 (предпоследний абзац) приложения 1 к приказу Минкомсвязи № 321 сбор биометрических образцов записи голоса каждого отдельного субъекта биометрии должен производиться исключительно при условии его нормального, т.е. невозбужденного "эмоционально-психологического состояния, без явных признаков заболеваний, препятствующих произнесению сообщений или способных нарушить тембр и звучание голоса". Легко сказать: "при условии нормального состояния субъекта". А где гарантия, что оно нормальное на подсознательном уровне? Даже в банке на этот вопрос не добиться ответа. Тогда что можно сказать определенного о состоянии клиента при обращении в банк через смартфон? И как тогда его контролировать?

Проблема вариативности устной речи проявляется в непредсказуемом и зачастую весьма значительном изменении тонкой структуры речевого сигнала в динамике: в зависимости от даты и времени обращения клиента в банк, а также от его текущего эмоционально-психологического состояния. При этом отнюдь не гарантируется соответствие его сиюминутного речевого сигнала хранящемуся в ЕБС биометрическому образцу. А это каждый раз будет означать ошибочный отказ банка в обслуживании своего клиента. Вероятность таких отказов на практике может приближаться к единице , что многократно затянет процедуру удаленного доступа и даже может перечеркнуть на как ошибочную саму идею ЕБС. Группа разработчиков программного обеспечения под научным руководством профессора В.В. Савченко (URL), с такой перспективой не согласна. Напротив, входящие в нее эксперты полагают, что данный проект - реальный шаг в цифровую экономику. Только сделать его надо максимально ответственно и квалифицированно.

Автономные, малозатратные и одновременно высокоэффективные технические решения для преодоления проблемы внутридикторской вариативности устной речи в науке давно известны и широко реализованы в разнообразных отечественных и зарубежных IT-разработках. К ним, в частности, относятся системы голосового самоанализа (от англ. "voice self-analysis", пример доступен по ссылке). Установив любую из подобных систем на смартфон в качестве бесплатного приложения, каждый клиент получит возможность не только проконтролировать акустические качества своего речевого сигнала в момент его обращения в банк, но и отрегулировать эти качества на должном уровне путем голосового тренинга в режиме on-line.

Нижний Новгород, июнь 2019 года

Работающие с биометрией специалисты в случае заинтересованности в представленном решении и других разработках, связанных с внутридикторской вариативностью речи, могут направить свои контактные данные с сопроводительным письмом на редакционную почту Единого портала Электронной подписи [email protected] . Информация будет передана автору статьи.

На днях прошла новость о том, что голланский ING стал первым европейским банком, запустившим активируемые голосом мобильные платежи. И тут я вспомнил, что тема биометрической аутентификации по голосу была не только одной из первых, о которой я писал в этом блоге 8 лет назад, но и когда я про нее в январе, то обещал сделать краткий обзор рынка биометрической аутентификации, что сейчас и делаю.

На самом деле системы голосовой биометрии решают не только задачи аутентификации, но и предотвращение мошенничества. Очевидно, что наибольший смысл имеет именно комбинация этих двух технологий. Одна идентифицирует человека, но может спасовать перед записанным голосом. Вторая позволяет отслеживать изменения голосовых характеристик в процессе общения и выявления подозрительных или аномальных голосовых последовательностей. Понятно, что, чем критичнее применение такой технологии, тем более важна становится их комбинация. Например, использование Facebook - это одно, а управление счетом - совсем другое. В первом случае достаточно и обычной аутентификации, а во втором нужно нечто большее.

У голосовой аутентификации есть очень важное преимущество - низкая цена ридера. Отпечатки пальцев у нас считываются только на iPhone. Сетчатка глаза или геометрии руки требуют точных и дорогостоящих дополнительных устройств. Микрофон же есть сейчас почти везде (в компьютерах, в мобильных устройствах) и достаточно неплохого качества. Поэтому роль голосовой биометрии будет только возрастать.

Еще одним преимуществом именно голосовой биометрии в том, что она "многоразова", если так можно выразиться. Лицо у вас одно, глаз максимум два, пальцев, если все хорошо, десять. И если эти данные украдены или скомпрометированы, то с этим ничего уже не поделаешь. Вы не можете использовать чужие пальцы, глаза, руки для своей идентификации. А кража базы "фраз" приведет только к тому, что система голосовой аутентификации может попросить вас произнести новую фразу или просто "поговорить с ней".

Наконец, если вспомнить, что системы аутентификации отличаются по тому, "кто вы", "что у вас есть", "что вы знаете" и "что вы делаете", то голосовая биометрия, в отличие от других систем биометрической аутентификации, использует все эти 4 фактора. По физическим характеристикам голоса она определяет "кто вы". Она определяет как и что вы говорите, то есть она позволяет защититься от атак на статические системы аутентификации (например, пароли). В конце концов она может определить, что вы знаете, если в качестве фразы для идентификации будет использоваться пин-код или пароль.
Системы голосовой биометрии (их лучше называть так, а не голосовая аутентификация, так как спектр решаемых ими задач шире) могут работать в двух режимах - так называемом пассивном (или независимом от текста) и активном (зависящем от текста). В первом случае система распознает собеседника по его свободной речи (похожим образом работает сервис Shazam на мобильных устройствах); во втором - по заранее определенным фразам, которые должен произнести пользователь. В активном режиме для защиты от подмены пользователя записанным заранее (или перехваченным) голосом, система должна использовать случайные фразы, которые и предлагать пользователю произнести.

Сказать, какой из двух вариантов работы системы голосовой биометрии, нельзя. У них обоих есть свои преимущества и недостатки. Активные системы более эффективны, но и требуют большего участия пользователя, которого идентифицируют. При этом отпечаток голоса занимает меньше места, чем в пассивных системах, что может быть актуально для мобильного применения или в местах, где Интернет еще не так развит или отсутствует вовсе. Например, есть решения, которые допускают проверку подлинности на самом устройстве, без подключения к внешнему серверу. С другой стороны активные системы не всегда применимы в системах массового пользования - банки, страховые, ритейл и т.п., так как пользователи могут быть недовольны необходимостью взаимодействовать с биометрической системой. И, конечно же, такие системы сложно применить для идентификации мошенников, что легко делается пассивными системами, спокойно "слушающими" звонящего/говорящего и идентифицирующие его речь, ничем себя не выдавая. Поэтому пассивные системы проще в использовании, но и требуют больших ресурсов для своей реализации.

Защита от мошенников реализуется путем использования обычных "черных списков", то есть списков голосовых отпечатков известных мошенников. Соответствующий специалист помечает голос как мошеннический и затем все звонки сравниваются с "черным списком" мошенников. В России, где отсутствует база голосовых отпечатков мошенников и преступников, этот метод будет не самым эффективным и каждый потребитель систем голосовой биометрии будет вынужден самостоятельно формировать собственную базу мошенников (соблюдение законодательства о персональных данных пока оставим в стороне). Но зато со временем организации, особенно в некоторых отраслях, смогут обмениваться такими базами, как это, например, делают антивирусные вендоры. Хорошая перспектива есть у банков (а они, наверное, самый первый кандидат на применение таких систем), у которых есть FinCERT, который сможет со временем обмениваться не только данными по IP/DNS/E-mail-адресам мошенников, но и дополнить рассылаемую информацию голосовыми отпечатками.

Бояться этой якобы редкой технологии не стоит. Сегодня весь мир стоит на пороге (круто завернул, а) UAF/U2F-революции от альянса FIDO, когда любое устройство, приложение или средство защиты сможет абстрагироваться от конкретного метода аутентификации/идентификации, возложив эту задачу на U2F/UAF-спецификацию, которая и обеспечит интеграцию с нужным методом аутентификации.

Если пытаться перевести выгоды от использования голосовой биометрии на язык цифр, то они могут заключаться в следующем:

  • Сокращение времени на аутентификацию пользователя с 23 секунд в ручном режиме в центре обработки вызовов (Call Center) до 5 секунд в автоматическом.
  • Повышение лояльности пользователей (и, как следствие, доходов от них) в результате отказа от необходимости запоминать всем известные ответы на "секретные" вопросы, помнить PIN-код для входа в систему или отвечать на вопросы назойливого сотрудника банка (ваши ФИО, дата вашего рождения, номер карты и т.п.).
  • Снижение числа сотрудников центра обработки вызовов за счет автоматической обработки многих простых вопросов (время работы офиса в праздники, ближайший офис или банкомат, тарифы и т.п.).
  • Снижение числа мошеннических операций.
  • Снижение времени на ожидании правильного сотрудника, который поможет ответить звонящему.
  • Рост продуктивности работников компании и центра обработки вызовов.