VoiceXML

VoiceXML
VoiceXML
Орган стандартизации	Консорциум Всемирной паутины
	Медиафайлы на Викискладе

VoiceXML (Voice eXtensible Markup Language, VXML) — один из открытых стандартов W3C на основе XML-языка^[1], протокол^[2], диалоговый язык разметки. VoiceXML 3.0 станет следующей основной версией VoiceXML с новыми основными функциями. Он включает новый язык описания диаграмм состояний XML, называемый SCXML.

История

Май 2000 года — опубликование в международном консорциуме World Wide Web (W3 Consortium) первой версии. Предназначение — для разработки интерактивных голосовых приложений (Interactive Voice Response, IVR) управления медиаресурсами. Цель создания стандарта — привнесение всех преимуществ web-программирования в разработку IVR-приложений^[1].

Многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации (с клавиатуры, пера, набора цифровых кнопок) попали в поле зрения ряда крупных компаний (Microsoft и др.), которые решили поддержать проект SALT Forum (Speech Application Language Tags — теги языка речевых приложений). Поэтому теперь вокруг SALT и VoiceXML консорциума W3С формируются два разных лагеря. До сих пор компании не могут прийти к единому мнению о выборе главного стандарта и сейчас оба направления развиваются в равной степени^[1].

При разработке пакетов (Software Development Kit, SDK) для создания речевых приложений компании поддерживают тот или иной стандарт. Например, пакет Speech SDK (от Philips) поддерживает спецификацию Voice XML и выполнен для связи с C/C++ API^[1].

Спецификации, предложенные W3C:

Voice Extensible Markup Language (VoiceXML) Version 2.0 — 16 марта 2004. Является частью W3C Speech Interface Framework, разработан в рамках W3C Voice Browser Activity участниками Voice Browser Working Group (недоступная ссылка).^[3]
Voice Extensible Markup Language (VoiceXML) 2.1 — 19 июня 2007^[4]
Voice Extensible Markup Language (VoiceXML) 3.0 (W3C Working Draft) — 4 марта 2010 ^[5]. Позволяет осуществлять голосовую идентификацию^[6]

Использование

Десятки тысяч приложений уже созданы^[7]

Opera (с версии 7.6)
Moodle — планируется использовать во второй версии.

VoiceXML имеет теги, которые являются командами для голосового браузера (voice browser), который: синтезирует, распознает речь, предоставляет диалоговое управление.

Пример кода

Пример VoiceXML документа:

<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">
  <form>
    <block>
      <prompt>
        Привет, мир!
      </prompt>
    </block>
  </form>
</vxml>

VoiceXML интерпретатор преобразует текстовую фразу «Привет, мир!» в синтезированную речь

Примечания

↑ ¹ ² ³ ⁴ Современные технологии распознавания речи Архивировано 29 октября 2007 года.
↑ Nortel выпустила новые решения для интеграции бизнес-процессов и приложений (недоступная ссылка)
↑ Voice Extensible Markup Language (VoiceXML) Version 2.0 (неопр.). Дата обращения: 6 апреля 2010. Архивировано 12 апреля 2010 года.
↑ Voice Extensible Markup Language (VoiceXML) 2.1 (неопр.). Дата обращения: 6 апреля 2010. Архивировано 7 мая 2021 года.
↑ Voice Extensible Markup Language (VoiceXML) 3.0 (неопр.). Дата обращения: 6 апреля 2010. Архивировано 2 марта 2021 года.
↑ Центр развития и внедрения компьютерных и информационных технологий UzInfoCom Архивировано 25 октября 2011 года.
↑ VoiceXML Forum (неопр.). Дата обращения: 6 апреля 2010. Архивировано 5 мая 2021 года.

См. также

Ссылки

[kravchenko-1] ¹ ² ³ ⁴ Современные технологии распознавания речи Архивировано 29 октября 2007 года.

[2] Nortel выпустила новые решения для интеграции бизнес-процессов и приложений (недоступная ссылка)

[3] Voice Extensible Markup Language (VoiceXML) Version 2.0 (неопр.). Дата обращения: 6 апреля 2010. Архивировано 12 апреля 2010 года.

[4] Voice Extensible Markup Language (VoiceXML) 2.1 (неопр.). Дата обращения: 6 апреля 2010. Архивировано 7 мая 2021 года.

[5] Voice Extensible Markup Language (VoiceXML) 3.0 (неопр.). Дата обращения: 6 апреля 2010. Архивировано 2 марта 2021 года.

[6] Центр развития и внедрения компьютерных и информационных технологий UzInfoCom Архивировано 25 октября 2011 года.

[7] VoiceXML Forum (неопр.). Дата обращения: 6 апреля 2010. Архивировано 5 мая 2021 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Синтез речи
Проприетарное ПО	Alter/Ego BrowseAloud Cantor CereProc CeVIO Creative Studio CoolSpeech Chipspeech DECtalk IVONA LaLaVoice Microsoft Agent Microsoft Speech API Microsoft text-to-speech voices PPG Phonem Readspeaker Realivox Software Automatic Mouth Symphonic Choirs Synthesizer V Talk It! Utau Voice browser Vocaloid Voiceroid
Свободное ПО	eSpeak Gnuspeech Festival Speech Synthesis System FreeTTS Gnopernicus Orca Sinsy Automatik Text Reader
Машина	Echo 2 Pattern playback Phasor RIAS Texas Instruments LPC Speech Chips TuVox
Приложения	AOLbyPhone DialogOS Dr. Sbaitso MBROLA Microsoft Narrator Microsoft Speech Server PlainTalk Voice font
Протоколы	Speech Synthesis Markup Language
Разработчики/ Исследователи	Catherine Browman Franklin Seaney Cooper Гуннар Фант Haskins Laboratories Вольфганг фон Кемпелен Ignatius Mattingly Philip Rubin VoiceWeb VoiceXML Yamaha
Процесс	Articulatory synthesis Concatenative synthesis Currah Inverse filter PSOLA Phase vocoder SABLE Self-voicing

VoiceXML

Содержание

История

Использование

Пример кода

Примечания

См. также

Ссылки

Навигация

VoiceXML

История

Использование

Пример кода

Примечания

См. также

Ссылки

Навигация

Поиск