Задача идентификации дикторов заключается в определении по образцу записи голоса, кому из ранее зарегистрированных пользователей принадлежит данный образец. Данная задача решается с помощью совокупности методов, в работе которых могут быть выделены следующие этапы: обработка сигнала с целью выделения векторов признаков, создание модели диктора и определения метода сравнения между извлекаемыми признаками и моделями дикторов, а также методы принятия решения на основе полученных сравнений.
Основной целью исследований в области распознавания дикторов является создание алгоритмов, повышающих точность работы систем, сохраняя при этом приемлемые показатели по вычислительной трудоемкости. В данной работе исследуется несколько способов. Во-первых, исследуется возможность повышения точности за счет одновременного использования векторов признаков, полученных от разных алгоритмов обработки сигналов. Во-вторых, исследуются способы нормирования расстояний, используемых для принятия решения об идентификации.
Извлечение признаков
На этапе извлечения признаков речевой сигнал сегментируется на короткие участки и на каждом участке вычисляется набор признаков. В области распознавания дикторов наибольшую популярность приобрели кепстральные методы извлечения признаков: на основе линейного предсказания (LPCC) и мэл-частотные (MFCC) (см., например, [2, 5]). В проведенных экспериментах анализ проводился на участках размером 16 мс, перекрытие между окнами 8 мс. Для получения коэффициентов LPCC вычислялось по 20 коэффициентов линейного предсказания, из которых генерировалось по 30 кепстральных коэффициентов. Также использовалось 32 коэффициента MFCC, вычисленных по значениям логарифмов энергий 48-ми подполос диапазона 0-5000 Гц.
Помимо описанных методов, в данной работе применялся также метод, основанный на выделении в речевом сигнале участков, соответствующих периодам основного тона. Такой подход был исследован в [1] и показал результаты, сравнимые по точности с коэффициентами MFCC.
В данной работе исследуется подход, при котором признаки речевого сигнала, полученные от разных алгоритмов, комбинируются для создания более точного представления. Для этого объединяются последовательности извлекаемых векторов. Размерность векторов признаков каждого алгоритма не меняется.
Создание модели диктора
В данной работе для получения модели диктора использовался метод векторного квантования с использованием алгоритма K-средних [4, 6] для кластеризации данных.
Пусть v1, ..., vL - входная последовательность векторов. Начальные значения средних инициализируем векторами из исходной последовательности с индексами . В проведенных экспериментах было использовано значение K = 96 кластеров. Нахождение ближайших кластеров определим на основе евклидова расстояния в случае векторов фиксированной размерности. Использование векторов произвольной длины (как в случае с описанным выше методом на основе кадров периода основного тона) требует некоторой модификации алгоритма. Во-первых, при вычислении расстояния между двумя такими векторами вектор с большим количеством координат обрезается, а сумма усредняется по количеству слагаемых. Во-вторых, для вычисления среднего определим вычисление суммы следующим образом. Пусть S - вычисленная до данной итерации сумма n векторов (возможно, пока содержащая только один вектор), LS - количество координат вектора S, v - вектор, состоящий из Lv координат. Тогда вектор суммы S + v будет содержать координат, вычисленных по формуле
В случае, если речевой сигнал обрабатывается несколькими алгоритмами извлечения признаков, множество кластеров (кодовая книга) строится отдельно для каждой извлекаемой последовательности.
Классификация
Рассмотрим теперь процесс идентификации. Образец речевого сигнала обрабатывается и представляется с помощью последовательности векторов v1, ..., vL. От каждого вектора vi вычисляются кратчайшие расстояния до шаблонов каждого диктора. Для этого используем евклидово расстояние, усредненное по количеству элементов. Обозначим через dij - расстояние от вектора i до шаблона j. Традиционный подход к классификации на основе векторного квантования или метода ближайшего соседа заключается в вычислении среднего по векторам расстояния до шаблонов [3].
Расстояния до конкретного шаблона, полученные от векторов, соответствующих различным звуковым фрагментам, могут существенно различаться. Заметим также, что при объединении векторов признаков из разных признаковых пространств процедура нормализации расстояний становится необходимой. Поэтому предлагается осуществлять процедуру нормализации расстояний. Нормализацию на уровне принятия решений можно сравнить с нормализацией, осуществляемой в задаче верификации, в которой вычисляются отношения степеней подобия предъявленного образца и заявленной идентичности к степени подобия с некоторым множеством референтных пользователей, называемым также когортой. В задаче идентификации нет необходимости отдельно хранить когортные модели, для фиксированного расстояния dij в качестве референтных выступают расстояния dik, k ≠ j.
При использовании отношения между расстояниями удобно перейти к термину «степень подобия». Степень подобия тем выше, чем короче расстояние. Рассмотрим несколько способов вычисления степеней подобия. Каждый из них можно рассматривать как вектор-функцию, при данных значениях расстояний (di,1, ..., di,N) вычисляющую степени подобия (si,1, ..., si,N). Полученные для исходных векторов степени подобия затем суммируются для принятия итогового решения
Пусть найдены кратчайшие расстояния (di,1, ..., di,N) от вектора vi до хранимых шаблонов. Для дальнейшего использования упорядочим расстояния по неубыванию: . Функцию вычисления степеней подобия зададим следующим образом
(1)
Здесь - некоторое расстояние, используемое для нормирования. В проведенных экспериментах расстояние dc выбиралось как элемент (координата) с определенным индексом или среднее по нескольким первым элементам вектора упорядоченных расстояний.
Следующий способ иногда называют схемой голосования. Пусть для вектора vi идентифицируемой последовательности найдено k ближайших векторов среди хранимых шаблонов, kij - количество векторов среди найденных, принадлежащих шаблону j. Тогда положим sij = kij/k. Использованное в экспериментах значение k равно единице.
Проблема выбора наиболее подходящего метода и его параметров может быть решена при достаточном количестве доступных для обучения данных с помощью метода кросс-валидации. Настройка параметров на этапе принятия решения упрощается тем, что данный этап является заключительным в процессе идентификации.
Эксперименты и результаты
Эксперимент по оценке точности работы был проведен на речевой базе данных, содержащей образцы речи, записанные в офисных условиях. Частота дискретизации записей составляет 16 кГц. База содержит мужские и женские голоса. Использовались записи пятидесяти дикторов. Каждый из дикторов записал по две сессии, интервал между которыми составляет не менее суток. В каждую сессию была сделана запись на два разных микрофона (электретный и динамический).
Для того чтобы смоделировать различные условия применения системы, было поставлено несколько экспериментов, результаты которых для целей сравнения и определения наиболее результативных параметров были объединены во взвешенную сумму.
В первой части экспериментов для обучения моделей и для попыток идентификации использовалась короткая фиксированная фраза, одинаковая для всех дикторов. Продолжительность произнесения фразы 3-5 с.
Во второй части экспериментов в качестве материала для произнесения каждому пользователю предоставлялись различные для каждой сессии тексты. Для обучения моделей использовалось по 40 с речи. Для попыток идентификации первые 40 с записи второй сессии разбивались на четыре десятисекундных сегмента. Обе записи получены с использованием одного микрофона.
Последняя часть экспериментов повторяет схему второй части за исключением того, что используемый для регистрации материал записан с использованием другого микрофона.
В каждом эксперименте для регистрации пользователей в системе использовались записи первой сессии, записи второй сессии использовались для проведения тестовых оценок. Для исследования влияния количества зарегистрированных пользователей эксперименты проводились по группам с количеством пользователей, равным 10, 25 и 50 для каждой из описанных частей экспериментов. Для объединения результатов было решено назначать весовые коэффициенты в зависимости от количества зарегистрированных пользователей: w1 = 1 в экспериментах по идентификации среди десяти пользователей, w2 = 2 - среди двадцати пяти пользователей и w3 = 3 - среди пятидесяти пользователей. Используемые значения весовых коэффициентов нормируются так, что их сумма равна единице.
Результаты экспериментов приведены в таблице. Эксперименты проведены для методов извлечения признаков LPCC (L), MFCC (M), кадров основного тона (F), а также их попарных объединений. Указаны взвешенные по всем экспериментам проценты верных идентификаций, а также результаты отдельных экспериментов для пятидесяти дикторов из второй и третьей частей экспериментов. Приведены несколько функций вычисления степеней подобия:
- F1 - традиционный способ, расстояния суммируются;
- F2 - схема голосования;
- F3 - вычисляется степень подобия по формуле (1), в которой положено .
В качестве исходной точки для сравнения следует рассматривать результаты, соответствующие признакам LPCC или MFCC с использованием функции F1. Результаты экспериментов показывают, что точность идентификации может быть повышена как за счет объединения признаков, так и за счет выбора способа нормирования степеней подобия.
Результаты экспериментов по идентификации дикторов
Признаки |
Взвешенный процент |
Отдельные эксперименты |
|||||||
F1 |
F2 |
F3 |
совпадающие условия, 50 дикторов |
несовпадающие условия, 50 дикторов |
|||||
F1 |
F2 |
F3 |
F1 |
F2 |
F3 |
||||
L |
80,69 |
83,72 |
84,08 |
90,5 |
89,5 |
92,5 |
56,0 |
57,0 |
61,5 |
M |
81,53 |
86,86 |
87,28 |
94,0 |
92,5 |
93,0 |
56,0 |
62,5 |
69,5 |
F |
76,69 |
73,75 |
75,94 |
88,0 |
83,0 |
84,5 |
51,0 |
38,0 |
44,0 |
L + M |
84,33 |
89,33 |
89,44 |
94,0 |
95,5 |
94,5 |
58,5 |
65,5 |
73,5 |
L + F |
76,36 |
87,08 |
89,8 |
88,0 |
93,0 |
96,0 |
51,0 |
62,0 |
72,0 |
M + F |
76,36 |
86,25 |
88,58 |
88,0 |
90,5 |
91,5 |
51,0 |
61,0 |
71,5 |
Заключение
Проведенные в данной работе исследования выявили несколько способов повышения точности систем распознавания. Первый из них заключается в объединении последовательностей векторов признаков, полученных от разных алгоритмов извлечения признаков.
В процессе работы над системой распознавания была создана модификация алгоритма K-средних, позволяющая кластеризовать векторы переменной длины.
Рассмотренные способы нормализации степеней подобия, получаемых векторами различных участков речевого сигнала, также позволяют увеличить точность идентификации. Рассмотренная функция кусочно-линейна, в качестве дальнейшего направления работы могут быть проведены исследования, использующие более широкий класс функций.
Рецензенты:
Гуц А.К., д.ф.-м.н., профессор, декан факультета компьютерных наук Омского государственного университета им. Ф.М. Достоевского, г. Омск;
Горлов С.И., д.ф.-м.н., профессор, ректор Нижневартовского государственного гуманитарного университета, г. Нижневартовск;
Захарченко В.Д., д.т.н., профессор, профессор кафедры радиофизики Волгоградского государственного университета, г. Волгоград.
Работа поступила в редакцию 11.07.2011.