Размещение патинко

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Размещение патинко (англ. pachinko allocation, PAM) — метод тематического моделирования, применяемый в машинном обучении и обработке естественного языка, позволяющий обнаружить скрытую тематическую структуру в коллекции документов[1]. От более ранних методов (например, LDA) алгоритм отличается тем, что моделирует корреляции между темами в дополнение к корреляциям слов, задающих темы. PAM превосходит LDA по гибкости и выразительной силе[2]. Впервые метод описан, реализован и применён для обработки текстов на естественном языке, однако, может быть использован и в других областях, например, для задач биоинформатики. Своё название получил благодаря популярным в Японии игровым автоматам патинко, в которых реализована игра, напоминающая пинбол на доске Гальтона.

История[править | править код]

Впервые размещение патинко было описано Ли Вэем и Эндрю Маккаллумом в 2005 году[3]. В 2007 году Ли, Маккаллумом и Дэвидом Мимно идея была обобщена до иерархического размещения патинко[4]. В том же году Маккаллум и его коллеги предложили ввести в PAM непараметрическое байесовское распределение, основанное на модификации иерархического процесса Дирихле (HDP)[2]. Алгоритм реализован в Java-библиотеке с открытым исходным кодом Malletruen.

Модель[править | править код]

Для изображения порождающей модели строится ациклический орграф, в котором вершинами являются слова и темы, причём слова могут быть только листьями. Тогда «трёхуровневая» модель — это LDA, а «двухуровневая» модель — обычное Dirichlet multinomial[уточнить].

См. также[править | править код]

Примечания[править | править код]

  1. Blei, David Topic modeling (недоступная ссылка). Проверено 4 октября 2012. Архивировано 2 октября 2012 года.
  2. 1 2 Li, Wei; Blei, David; McCallum, Andrew (2007). “Nonparametric Bayes Pachinko Allocation” (PDF). Архивировано из оригинала (PDF) 2012-10-03. Проверено 2014-05-14. Используется устаревший параметр |deadlink= (справка)
  3. Li, Wei; McCallum, Andrew (2006). “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations” (PDF). Proceedings of the 23rd International Conference on Machine Learning.
  4. Mimno, David; Li, Wei; McCallum, Andrew (2007). “Mixtures of Hierarchical Topics with Pachinko Allocation” (PDF). Proceedings of the 24th International Conference on Machine Learning. Проверено 2014-05-14.
  5. Hofmann, Thomas (1999). “Probabilistic Latent Semantic Indexing” (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Архивировано из оригинала (PDF) 2010-12-14. Проверено 2014-05-14.
  6. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (January 2003). “Latent Dirichlet allocation”. Journal of Machine Learning Research. 3: pp. 993–1022. DOI:10.1162/jmlr.2003.3.4-5.993.