Размещение патинко

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Размещение патинко (англ. pachinko allocation, PAM) — метод тематического моделирования, применяемый в машинном обучении и обработке естественного языка, позволяющий обнаружить скрытую тематическую структуру в коллекции документов[1]. От более ранних методов (например, LDA) алгоритм отличается тем, что моделирует корреляции между темами в дополнение к корреляциям слов, задающих темы. PAM превосходит LDA по гибкости и выразительной силе[2]. Впервые метод описан, реализован и применён для обработки текстов на естественном языке, однако, может быть использован и в других областях, например, для задач биоинформатики. Своё название получил благодаря популярным в Японии игровым автоматам патинко, в которых реализована игра, напоминающая пинбол на доске Гальтона.

История[править | править вики-текст]

Впервые размещение патинко было описано Ли Вэем и Эндрю Маккаллумом в 2005 году[3]. В 2007 году Ли, Маккаллумом и Дэвидом Мимно идея была обобщена до иерархического размещения патинко[4]. В том же году Маккаллум и его коллеги предложили ввести в PAM непараметрическое байесовское распределение, основанное на модификации иерархического процесса Дирихле (HDP)[2]. Алгоритм реализован в Java-библиотеке с открытым исходным кодом Malletruen.

Модель[править | править вики-текст]

Для изображения порождающей модели строится ациклический орграф, в котором вершинами являются слова и темы, причём слова могут быть только листьями. Тогда «трёхуровневая» модель — это LDA, а «двухуровневая» модель — обычное Dirichlet multinomial[уточнить].

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Blei, David Topic modeling. Проверено 4 октября 2012.
  2. 1 2 (2007) «Nonparametric Bayes Pachinko Allocation».
  3. (2006) «Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations». Proceedings of the 23rd International Conference on Machine Learning.
  4. (2007) «Mixtures of Hierarchical Topics with Pachinko Allocation». Proceedings of the 24th International Conference on Machine Learning.
  5. (1999) «Probabilistic Latent Semantic Indexing». Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval.
  6. (January 2003) «Latent Dirichlet allocation». Journal of Machine Learning Research 3: pp. 993–1022. DOI:10.1162/jmlr.2003.3.4-5.993.