Речевые сигналы являются одним из традиционных объектов исследования. Наиболее важным для практики является распознавание речевых сигналов, произнесенных определенным кругом дикторов или произвольным лицом. В этом случае главной информационной составляющей является семантическая информация, которая должна быть инвариантной к говорящему. Основными элементами решения являются фонемы, определяемые совокупностью объективных признаков. Наиболее существенными признаками являются форманты, т.е. области повышенной спектральной плотности огибающей спектра. Процесс артикуляции собственно и состоит в модуляции частоты формант, достигаемой изменением положения языка и губ при произнесении той или иной фразы. При этом такие признаки, которые связаны с реальным интонированием данным лицом, например, интонационные особенности речи, эмоциональность произнесения фразы и т.д. являются либо второстепенными, либо вообще мешающими факторами и должна быть обеспечена инвариантность результатов распознавания к этим факторам.
В то же время существует другой класс задач, в которых необходимо либо идентифицировать собеседника, либо выявить те или иные эмоциональные факторы его речи. При решении таких задач смысл речевого сообщения не существенен, поэтому основное значение имеют признаки данного собеседника или его состояния, проявляемые в процессе интонирования фразы, а результаты должны быть инвариантны к семантической составляющей речевой информации.В этом случае при решении необходимо опираться на иные признаки - изменения основного тона речи (повышение или понижение, на сколько, с какой скоростью и т.д.), абсолютные значения формантных частот, темпоритмические особенности речи и т.д.
Различны для этих двух задач и способы экспериментальной проверки соответствующих алгоритмов распознавания и идентификации. Так, при распознавании смысла речевого сообщения основной характеристикой является разборчивость речи, определяемая долей правильно распознанных слов в речевом сообщении. В задаче же идентификации собеседника главной характеристикой является вероятность ошибок первого и второго рода при идентификации. Эта задача должна решаться путем привлечения многих дикторов и проведения соответствующих статистических экспериментов.
Если указанные способы оценки хорошо известны и имеются процедуры контроля статистической представительности этих оценок, то вопросы экспериментального определения степени инвариантности алгоритмов распознавания и идентификации являются пока дискуссионными. Мы предлагаем в качестве количественной меры инвариантности тех или иных признаков к неинформативным параметрам использовать изменение среднего значения и дисперсию оценок разборчивости при изменении влияющих факторов во всем физически возможном диапазоне. В задаче же идентификации собеседника мерой инвариантности к передаваемому сообщению является уменьшение среднего значения и дисперсия оценки вероятности правильного распознавания говорящего при вариации текста. При этом объем текстов (количество слов) должен быть таким, чтобы статистическая погрешность была заметно меньше оцениваемых среднего значения и дисперсии (известно, что среднеквадратическое значение статистической погрешности обратно пропорционально корню квадратному из числа выборочных значений при их статистической независимости).
Экспериментальные исследования показали работоспособность предложенных критериев [1].
СПИСОК ЛИТЕРАТУРЫ:
- Кучерявенко С.В., Рыжов В.П., Федосов В.П. О выборе признаков в задачах распознавания и идентификации речевых сигналов - Материалы Международной научной конференции «Статистические методы в естественных, гуманитарных и технических науках» - Таганрог, ТРТУ, 2006.