Тематическое моделирование

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Построение тематической модели документа: :  — матрица искомых условных распределений слов по темам : матрица искомых условных распределений тем по документам :  — документ :  — слово :  — наблюдаемые переменные :  — тема (скрытая переменная)

Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов[1].

Тематическая модель (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему[2].

Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков.

Тематическое моделирование как вид статистических моделей для нахождения скрытых тем встреченных в коллекции документов, нашло своё применение в таких областях как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов[⇨]. Интуитивно понимая, что документ относится к определенной теме, в документах посвященных одной теме можно встретить некоторые слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10 % темы составляют кошки, а 90 % темы про собак, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математическую структуру, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе, сделать вывод, что каждый документ это некоторый баланс тем.

Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — вероятностных моделях на ориентированных графах. Вероятностные тематические модели — это относительно молодая область исследований в теории самообучения[⇨]. Одним из первых был предложен вероятностный латентно-семантический анализ[⇨] (PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле и его многочисленные обобщения[3][⇨].

Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонент смеси по выборке[4][⇨].

Хотя тематическое моделирование традиционно описывалось и применялось в обработке естественного языка, оно нашло своё применение и в других областях, например, таких как биоинформатика.

История[править | править вики-текст]

Первое описание тематического моделирования появилось в работе Рагавана, Пападимитриу, Томаки и Вемполы 1998 году[5]. Томас Хофманн в 1999 году[6] предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей — это латентное размещение Дирихле (LDA), эта модель является обобщением вероятностного семантического индексирования и разработана Дэвидом Блейем (англ. David Blei), Эндрю Ыном и Майклом Джорданом (англ. Michael I. Jordan) в 2002 году[7]. Другие тематические модели как правило являются расширением LDA, например, размещение патинко улучшает LDA за счёт введения дополнительных корреляционных коэффициентов для каждого слова, которое составляет тему.

Тематические исследования[править | править вики-текст]

Тэмплтон сделал обзор работ по тематическому моделированию в гуманитарных науках, сгруппированных по синхронному и диахроническому подходу[8]. Синхронные подходы выделяют темы в некоторый момент времени, например, Джокерс с помощью тематической модели исследовал, о чём писали блогеры в День Цифровых Гуманитарных наук в 2010 году[9].

Диахронические подходы, включая определение Блока и Ньюмана о временной динамике тем в Пенсильванской газете 1728—1800 года[10]. Грифитс и Стейверс использовали тематическое моделирование для обзоров журнала PNAS, определяли изменения популярности тем с 1991 по 2001 год[11]. Блевин создал тематическую модель дневника Марты Балладс[12]. Мимно использовал тематическое моделирование для анализа 24 журналов по классической филологии и археологии за 150 лет, чтобы определить изменения популярности тем и узнать, насколько сильно изменились журналы за это время[13].

Алгоритмы тематического моделирования[править | править вики-текст]

В работе Дэвида Блея «Введение в тематическое моделирование» рассмотрен наиболее популярный алгоритм Латентное размещение Дирихле[⇨][14]. На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы сингулярного разложения (SVD), метод моментов, алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирихле. В работе Воронцова К. В. рассмотрены вариации основных алгоритмов тематического моделирования: робастная тематическая модель, тематические модели классификации, динамические тематические модели, иерархические тематические модели, многоязычные тематические модели, модели текста как последовательности слов, многомодальные тематические модели [2].

Вероятностные тематические модели основаны на следующих предположениях [15] [16] [17] [18]:

  • Порядок документов в коллекции не имеет значения
  • Порядок слов в документе не имеет значения, документ — мешок слов
  • Слова, встречающиеся часто в большинстве документов, не важны для определения тематики
  • Коллекцию документов можно представить как выборку пар документ-слово , ,
  • Каждая тема описывается неизвестным распределением на множестве слов
  • Каждый документ описывается неизвестным распределением на множестве тем
  • Гипотеза условной независимости

Построить тематическую модель — значит, найти матрицы и по коллекции В более сложных вероятностных тематических моделях некоторые из этих предположений заменяются более реалистичными.

Вероятностный латентно-семантический анализ[править | править вики-текст]

Вероятностный латентно-семантический анализ (PLSA).  — документ,  — слово,  — наблюдаемые переменные,  — тема (скрытая переменная),  — априорное распределение на множестве документов,  — искомые условные распределения,  — коллекция документов,  — длина документа в словах

Вероятностный латентно-семантический анализ (PLSA) предложен Томасом Хофманном в 1999 году. Вероятностная модель появления пары «документ-слово» может быть записана тремя эквивалентными способами:

где  — множество тем;

 — неизвестное априорное распределение тем во всей коллекции;
 — априорное распределение на множестве документов, эмпирическая оценка , где  — суммарная длина всех документов;
 — априорное распределение на множестве слов, эмпирическая оценка , где  — число вхождений слова во все документы;

Искомые условные распределения выражаются через по формуле Байеса:

Для идентификации параметров тематической модели по коллекции документов применяется принцип максимума правдоподобия, который приводит к задаче минимизации функционала

при ограничениях нормировки

где  — число вхождений слова в документ . Для решения данной оптимизационной задачи обычно применяется EM-алгоритм.

Основные недостатки PLSA:

  • Число параметров растёт линейно по числу документов в коллекции, что может приводить к переобучению модели.
  • При добавлении нового документа в коллекцию распределение невозможно вычислить по тем же формулам, что и для остальных документов, не перестраивая всю модель заново.

Латентное размещение Дирихле[править | править вики-текст]

Латентное размещение Дирихле LDA. : — слово (наблюдаемая переменная) : — тема (скрытая переменная) : — коллекция документов : — длина документа в словах : — количество тем в коллекции : — распределение тем в документе : — распределение слов в теме

Метод латентного размещения Дирихле (LDA) предложен Дэвидом Блеем в 2003 году.

В этом методе устранены основные недостатки PLSA.

Метод LDA основан на той же вероятностной модели

при дополнительных предположениях:

  • вектора документов порождаются одним и тем же вероятностным распределением на нормированных -мерных векторах; это распределение удобно взять из параметрического семейства распределений Дирихле ;
  • вектора тем порождаются одним и тем же вероятностным распределением на нормированных векторах размерности ; это распределение удобно взять из параметрического семейства распределений Дирихле .

Для идентификации параметров модели LDA по коллекции документов применяется семплирование Гиббса, вариационный байесовский вывод или метод распространения ожидания (англ.) (Expectation propagation).

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]

Программное обеспечение и программные библиотеки[править | править вики-текст]