Распознавание речи

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.

История[править | править вики-текст]

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры.[1] В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking (англ.)русск., VoiceNavigator (англ.)русск.) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Классификация систем распознавания речи[править | править вики-текст]

Системы распознавания речи:[2]

  • по размеру словаря (ограниченный набор слов, словарь большого размера);
  • по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
  • по типу речи (слитная или раздельная речь);
  • по назначению (системы диктовки, командные системы);
  • по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:[3]

  • Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
  • Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Методы и алгоритмы распознавания речи[править | править вики-текст]

«… очевидно, что алгоритмы обработки речевого сигнала в модели восприятия речи должны использовать ту же систему понятий и отношений, которой пользуется человек.»[4][5]

Сегодня системы распознавания речи строятся на основе принципов признания[кем?] форм распознавания[неизвестный термин]. Методы и алгоритмы, которые использовались до сих пор, могут быть разделены на следующие большие классы:[6][7][8]

Классификация методов распознавания речи на основе сравнения с эталоном.

  • Динамическое программирование — временные динамические алгоритмы (Dynamic Time Warping).

Контекстно-зависимая классификация. При её реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.

  • Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination);
  • Скрытые Марковские модели (Hidden Markov Model);
  • Нейронные сети (Neural networks).

Архитектура систем распознавания[править | править вики-текст]

Типичная[источник не указан 603 дня] архитектура статистических систем автоматической обработки речи.[9][10][11]

  • Модуль шумоочистки и отделение полезного сигнала.
  • Акустическая модель — позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
  • Языковая модель — позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта — слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
  • Декодер — программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.

Этапы распознавания[9]

  • 1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
  • 2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
  • 3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
  • 4. Далее параметры речи поступают в основной блок системы распознавания — декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

Признаки эмоционально окрашенной речи в системах распознавания[править | править вики-текст]

Основные понятия, которые характеризуют параметры речи человека, связанные с формой, размерами, динамикой изменения речеобразующего тракта и описывающие эмоциональное состояния человека, можно разделить на четыре группы объективных признаков, позволяющих различать речевые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки нелинейной динамики. Подробнее, каждая группа признаков:[12][13][5]

Спектрально-временные признаки[править | править вики-текст]

Спектральные признаки:

  • Среднее значение спектра анализируемого речевого сигнала;
  • Нормализованные средние значения спектра;
  • Относительное время пребывания сигнала в полосах спектра;
  • Нормализованное время пребывания сигнала в полосах спектра;
  • Медианное значение спектра речи в полосах;
  • Относительная мощность спектра речи в полосах;
  • Вариация огибающих спектра речи;
  • Нормализованные величины вариации огибающих спектра речи;
  • Коэффициенты кросскорреляции спектральных огибающих между полосами спектра.

Временные признаки:

  • Длительность сегмента, фонемы;
  • Высота сегмента;
  • Коэффициент формы сегмента.

Спектрально-временные признаки характеризуют речевой сигнал в его физико-математической сущности исходя из наличия компонентов трех видов:

  1. периодических (тональных) участков звуковой волны;
  2. непериодических участков звуковой волны (шумовых, взрывных);
  3. участков, не содержащих речевых пауз.

Спектрально-временные признаки позволяют отражать своеобразие формы временного ряда и спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов. Характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего, и являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов говорящего.

Кепстральные признаки[править | править вики-текст]

  • Мел-частотные кепстральные коэффициенты;
  • Коэффициенты линейного предсказания с коррекцией на неравномерность чувствительности человеческого уха;
  • Коэффициенты мощности частоты регистрации;
  • Коэффициенты спектра линейного предсказания;
  • Коэффициенты кепстра линейного предсказания.

Большинство современных автоматических систем распознавания речи сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения. Это объяснено тем, что коэффициенты первой модели обеспечивают лучшую разделимость звуков. Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу.

Амплитудно-частотные признаки[править | править вики-текст]

  • Интенсивность, амплитуда
  • Энергия
  • Частота основного тона (ЧОТ)
  • Формантные частоты
  • Джиттер (jitter) — дрожание частотная модуляция основного тона (шумовой параметр);
  • Шиммер (shimmer) — амплитудная модуляция на основном тоне (шумовой параметр);
  • Радиальная базисная ядерная функция
  • Нелинейный оператор Тигер

Амплитудно-частотные признаки позволяют получать оценки, значения которых могут меняться в зависимости от параметров дискретного преобразования Фурье (вида и ширины окна), а также при незначительных сдвигах окна по выборке. Речевой сигнал акустически представляют собой распространяемые в воздушной среде сложные по своей структуре звуковые колебания, которые характеризуются в отношении их частоты (числа колебаний в секунду), интенсивности (амплитуды колебаний) и длительности. Амплитудно-частотные признаки несут необходимую и достаточную информацию для человека по речевому сигналу при минимальном времени восприятия. Но применение этих признаков не позволяет в полной мере использовать их в качестве инструмента идентификации эмоционально окрашенной речи.

Признаки нелинейной динамики[править | править вики-текст]

  • Отображение Пуанкаре;
  • Рекуррентный график;
  • Максимальный характеристический показатель Ляпунова — Эмоциональное состояние человека, которому соответствует определенная геометрия аттрактора (фазовый портрет);[14]
  • Фазовый портрет (аттрактор);
  • Размерность Каплана-Йорка — количественная мера эмоционального состояния человека, от «спокойствия» до «гнева» (деформация и последующее смещение спектра речевого сигнала).[14].

Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величина, наблюдаемая в системе голосового тракта человека. Процесс речеобразования можно считать нелинейным и анализировать его методами нелинейной динамики. Задача нелинейной динамики состоит в нахождении и подробном исследовании базовых математических моделей и реальных систем, которые исходят из наиболее типичных предложений о свойствах отдельных элементов, составляющих систему, и законах взаимодействия между ними. В настоящее время методы нелинейной динамики базируются на фундаментальной математической теории, в основе которой лежит теорема Такенса (англ.)русск., которая подводит строгую математическую основу под идеи нелинейной авторегрессии и доказывает возможность восстановления фазового портрета аттрактора по временному ряду или по одной его координате. (Под аттрактором понимают множество точек или подпространство в фазовом пространстве, к которому приближается фазовая траектория после затухания переходных процессов.) Оценки характеристик сигнала из восстановленных речевых траекторий используются в построении нелинейных детерминированных фазово-пространственных моделей наблюдаемого временного ряда. Выявленные отличия в форме аттракторов можно использовать для диагностических правил и признаков, позволяющих распознать и правильно идентифицировать различные эмоции в эмоционально окрашенном речевом сигнале.

Параметры качества речи[править | править вики-текст]

Параметры качества речи по цифровым каналам: [15]

  • Слоговая разборчивость речи;
  • Фразовая разборчивость речи;
  • Качество речи по сравнению с качеством речи эталонного тракта;
  • Качество речи в реальных условиях работы.

ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ

  • Разборчивость речи — относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов.
  • Качество речи — параметр, характеризующий субъективную оценку звучания речи в испытуемой системе передачи речи.
  • Нормальный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.
  • Ускоренный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.
  • Узнаваемость голоса говорящего — возможность слушателей отождествлять звучание голоса, с конкретным лицом, известным слушателю ранее.
  • Смысловая разборчивость — показатель степени правильного воспроизведения информационного содержания речи.
  • Интегральное качество — показатель, характеризующий общее впечатление слушателя от принимаемой речи.

Применение[править | править вики-текст]

Основным преимуществом голосовых систем объявлялась дружественность к пользователю. Речевые команды должны были избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.

Ни одна из существующих систем речевого ввода не достигла заявленных целей, все они носят вспомогательный, экспериментальный характер или используются в качестве рекламного трюка.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) pp. 637—642
  2. http://fetmag.mrsu.ru/2010-2/pdf/SpeechRecognition.pdf
  3. Современные проблемы в области распознавания речи. - Auditech.Ltd. Проверено 3 марта 2013. Архивировано из первоисточника 15 марта 2013.
  4. http://фоноскопическая.рф/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
  5. 1 2 http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
  6. http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
  7. Динамическое программирование в алгоритмах распознавания речи / Хабрахабр. Проверено 27 апреля 2013. Архивировано из первоисточника 28 апреля 2013.
  8. http://www.ccas.ru/frc/papers/mestetskii04course.pdf
  9. 1 2 Распознавание речи | Центр Речевых Технологий | ЦРТ. Проверено 20 апреля 2013. Архивировано из первоисточника 28 апреля 2013.
  10. http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
  11. http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
  12. http://eprints.tstu.tver.ru/69/1/3.pdf
  13. http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf
  14. 1 2 Диссертация на тему «Исследование психофизиологического состояния человека на основе эмоциональных признаков речи» автореферат по специальности ВАК 05.11.17, 05.13.01 — Прибор…
  15. ГОСТ Р 51061-97. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ.. Архивировано из первоисточника 30 апреля 2013.

Ссылки[править | править вики-текст]