Диаризация

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Диаризация (или разделение дикторов) — процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему. Диаризация повышает качество текстов при автоматическом транскрибировании, а также может использоваться совместно с системой распознавания речи, значительно её улучшая. Диаризация используется для ответа на вопрос «Кто сейчас говорит?». Диаризация является сочетанием методов сегментации и кластеризации дикторов. Первый направлен на поиск точек смены диктора, второй — на группирование выделенных в речи диктора речевых сегментов.

Одним из популярных методов при диаризации является использование алгоритмов на основе гауссовых смесей для моделирования каждого из говорящих и закрепление выделенных фрагментов за каждым из дикторов с помощью скрытой марковской модели[1].

Программное обеспечение[править | править код]

Программные средства для диаризации включают в себя[2][3][неавторитетный источник?]:

  • ALIZE[4]
  • LIUM_SpkDiarization[5]
  • Audioseg — сегментация и классификация аудиопотоков[6]
  • SHoUT[7]
  • pyAudioAnalysis

Примечания[править | править код]

  1. Speaker Diarization: A Review of Recent Research // icsi.berkeley.edu, 2012.
  2. Cultural and historical digital libraries dynamically mined from news archives Архивная копия от 5 марта 2016 на Wayback Machine D2.1: State of the Art, Project’s deliverable
  3. Development of a Speaker Recognition Solution in Vidispine: Karen Farnes, Master’s Thesis in Computing Science, Umeå University, 2013
  4. ALIZE Diarization System, University Of Avignon
  5. SpkDiarization (недоступная ссылка). Дата обращения 11 сентября 2019. Архивировано 28 января 2019 года.
  6. InriaForge: AudioSeg: Project Home
  7. SHoUT speech recognition toolkit

Литература[править | править код]