Особое место в перспективных методах ввода команд и текста по праву занимают системы автоматического распознавания речи. Наиболее развитые из них способны распознавать слитную речь на достаточно большом словаре. Однако для получения приемлемой точности распознавания все подобные системы требуют от пользователя выполнения сложного и длительного этапа обучения на конкретного диктора, что является мощным сдерживающим фактором в их применении. Успешное восприятие и понимание речи человеком независимо от говорящего, позволяет предположить существование признаков речевых конструкций не зависящих от диктора, но присущих данному языку в целом. Нахождение и применение подобных признаков позволит отказаться от обучения на диктора.
Основной проблемой создания систем распознавания речи независимо от диктора является применение стандартных методов статистического моделирования (таких как скрытые Марковские модели или искусственные нейронные сети), в которых параметры зависят от конкретных речевых сигналов, и как следствие характеристик речи, присущих каждому конкретному диктору.
Для разрыва подобной связи предлагается моделировать речь не как случайный сигнал, а как случайную последовательность неделимых единиц речи - фонем (не сигналов фонем, а фонем как языковой абстрактной единицы), а их классификацию проводить на основе соответствующих дикторонезависимых признаков, присущих конкретному языку, а не диктору в отдельности. Модель гибридная. Стохастическая часть представлена явной Марковской моделью дискретной в пространстве состояний и во времени и применяется для предсказания процесса смены фонем. Детерминированная часть представлена множествами оптимальных параметров частотно - временного анализа, необходимыми для поиска дикторонезависимых признаков предсказанной фонемы в речевом сигнале, и множествами существенно-значимых не зависящих от диктора признаков, определяемых экспериментально при создании системы распознавания речи.
В качестве метода частотно-временного анализа предлагается использовать непрерывное вейвлет-преобразование Морле, как наиболее гибкий инструмент частотно-временного анализа из имеющихся на сегодняшний день. Обобщенная схема подобной системы распознавания речи приведена на рис.1.
Рисунок 1. Обобщенная схема подобной системы распознавания речи
Где x(t) - аналоговый электрический сигнал; - оцифрованный дискретный сигнал; xm - сигнал после предварительной обработки (фильтрации от шумов, выравнивания энергии); - фонема предсказанная стохастической частью модели - соответственно множество анализируемых масштабов и смещений по времени; необходимых для поиска признаков предсказанной фонемы; - результат вейвлет-анализа на заданных масштабах и смещениях по времени; - решение относительно гипотезы о наличии в сигнале предсказанной фонемы при условии ; - распознанная фонема. Дикторонезависимые признаки закладываются в блок проверки гипотез в виде соответствующих предсказываемым фонемам алгоритмов анализа частотно-временной картины сигнала . Предсказание осуществляется на основе вычисления вектора вероятностей фонем (состояний системы) на шаге k+1, в соответствии с теорией Марковских процессов. При этом сначала выбирается состояние с максимальной вероятностью. Если оно не подтверждается, то далее в порядке убывания вероятности. Частотно временной анализ при этом выполняется для тех масштабов и смещений преобразования по времени, вычислении по которым еще не проводились. Таким образом, обратная связь от блока предсказания и распознавания на блок частотно-временного анализа позволяет сократить вычислительные затраты на непрерывное вейвлет-преобразование.
Эксперименты с вейвлет-портретами множества дикторов выявили существенно - значимые дикторонезависимые признаки фонем русской речи. Определены минимальные множества масштабов и смещений преобразования по времени необходимые для поиска данных признаков в частотно-временной картине сигнала. Выявлена зависимость положения формантных частот и периода элементарных повторяющихся частей вокализованных фонем от частоты основного тона. Предложен алгоритм определения частоты основного тона и определения вокализованности/невокализованности участка речевого сигнала на основе непрерывного вейвлет-преобразования с минимизацией множества масштабов и смещений преобразования по времени. Разработан алгоритм ускоренного вычисления непрерывного вейвлет-преобразования на основе БПФ.