Диаризация

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Диаризация (или разделение дикторов) — процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему. Диаризация повышает качество текстов при автоматическом транскрибировании, а также может использоваться совместно с системой распознавания речи, значительно её улучшая. Диаризация используется для ответа на вопрос «Кто сейчас говорит?». Диаризация является сочетанием методов сегментации и кластеризации дикторов. Первый направлен на поиск точек смены диктора, второй — на группирование выделенных в речи диктора речевых сегментов.

Одним из популярных методов при диаризации является использование алгоритмов на основе гауссовых смесей для моделирования каждого из говорящих и закрепление выделенных фрагментов за каждым из дикторов с помощью скрытой марковской модели[1].

Программное обеспечение[править | править код]

Программные средства для диаризации включают в себя[2][3][неавторитетный источник?]:

  • ALIZE[4]
  • LIUM_SpkDiarization[5]
  • Audioseg — сегментация и классификация аудиопотоков[6]
  • SHoUT[7]
  • pyAudioAnalysis

Примечания[править | править код]

  1. Speaker Diarization: A Review of Recent Research // icsi.berkeley.edu, 2012.
  2. Cultural and historical digital libraries dynamically mined from news archives Архивная копия от 5 марта 2016 на Wayback Machine D2.1: State of the Art, Project’s deliverable
  3. Development of a Speaker Recognition Solution in Vidispine: Karen Farnes, Master’s Thesis in Computing Science, Umeå University, 2013
  4. ALIZE Diarization System, University Of Avignon
  5. SpkDiarization (недоступная ссылка). Дата обращения: 11 сентября 2019. Архивировано 28 января 2019 года.
  6. InriaForge: AudioSeg: Project Home
  7. SHoUT speech recognition toolkit

Литература[править | править код]