Размещение патинко

Размещение патинко (англ. pachinko allocation, PAM) — метод тематического моделирования, применяемый в машинном обучении и обработке естественного языка, позволяющий обнаружить скрытую тематическую структуру в коллекции документов^[1]. От более ранних методов (например, LDA) алгоритм отличается тем, что моделирует корреляции между темами в дополнение к корреляциям слов, задающих темы. PAM превосходит LDA по гибкости и выразительной силе^[2]. Впервые метод описан, реализован и применён для обработки текстов на естественном языке, однако, может быть использован и в других областях, например, для задач биоинформатики. Своё название получил благодаря популярным в Японии игровым автоматам патинко, в которых реализована игра, напоминающая пинбол на доске Гальтона.

История[править | править код]

Впервые размещение патинко было описано Ли Вэем и Эндрю Маккаллумом в 2005 году^[3]. В 2007 году Ли, Маккаллумом и Дэвидом Мимно идея была обобщена до иерархического размещения патинко^[4]. В том же году Маккаллум и его коллеги предложили ввести в PAM непараметрическое байесовское распределение, основанное на модификации иерархического процесса Дирихле (HDP)^[2]. Алгоритм реализован в Java-библиотеке с открытым исходным кодом Mallet^ru_en.

Модель[править | править код]

Для изображения порождающей модели строится ациклический орграф, в котором вершинами являются слова и темы, причём слова могут быть только листьями. Тогда «трёхуровневая» модель — это LDA, а «двухуровневая» модель — Дирихле-мультиномиальное распределение^{[уточнить]}.

См. также[править | править код]

Вероятностное латентное семантическое индексирование (PLSI) — тематическая модель, предложенная Томасом Хоффманом в 1999 году^[5].
Латентное размещение Дирихле — обобщение pLSI, предложенное Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2002 году^[6].

Примечания[править | править код]

↑ Blei, David Topic modeling (неопр.). Дата обращения: 4 октября 2012. Архивировано из оригинала 2 октября 2012 года.
↑ ¹ ² Li, Wei; Blei, David; McCallum, Andrew. Nonparametric Bayes Pachinko Allocation (неопр.). — 2007. Архивировано 3 октября 2012 года.
↑ Li, Wei; McCallum, Andrew. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations (англ.) // Proceedings of the 23rd International Conference on Machine Learning (англ.) (рус. : journal. — 2006. Архивировано 17 января 2012 года.
↑ Mimno, David; Li, Wei; McCallum, Andrew. Mixtures of Hierarchical Topics with Pachinko Allocation (англ.) // Proceedings of the 24th International Conference on Machine Learning (англ.) (рус. : journal. — 2007. Архивировано 20 июня 2013 года.
↑ Hofmann, Thomas. Probabilistic Latent Semantic Indexing (неопр.) // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. — 1999. Архивировано 14 декабря 2010 года.
↑ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (англ.) (рус.; Lafferty, John. Latent Dirichlet allocation (англ.) // Journal of Machine Learning Research : journal. — 2003. — January (vol. 3). — P. pp. 993—1022. — doi:10.1162/jmlr.2003.3.4-5.993. Архивировано 1 мая 2012 года.

[1] Blei, David Topic modeling (неопр.). Дата обращения: 4 октября 2012. Архивировано из оригинала 2 октября 2012 года.

[mccallum07-2] ¹ ² Li, Wei; Blei, David; McCallum, Andrew. Nonparametric Bayes Pachinko Allocation (неопр.). — 2007. Архивировано 3 октября 2012 года.

[li2006-3] Li, Wei; McCallum, Andrew. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations (англ.) // Proceedings of the 23rd International Conference on Machine Learning (англ.) (рус. : journal. — 2006. Архивировано 17 января 2012 года.

[mimno2007-4] Mimno, David; Li, Wei; McCallum, Andrew. Mixtures of Hierarchical Topics with Pachinko Allocation (англ.) // Proceedings of the 24th International Conference on Machine Learning (англ.) (рус. : journal. — 2007. Архивировано 20 июня 2013 года.

[hofmann1999-5] Hofmann, Thomas. Probabilistic Latent Semantic Indexing (неопр.) // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. — 1999. Архивировано 14 декабря 2010 года.

[blei2003-6] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (англ.) (рус.; Lafferty, John. Latent Dirichlet allocation (англ.) // Journal of Machine Learning Research : journal. — 2003. — January (vol. 3). — P. pp. 993—1022. — doi:10.1162/jmlr.2003.3.4-5.993. Архивировано 1 мая 2012 года.

[1]

[2]

[3]

[4]

[5]

[6]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Размещение патинко

Содержание

История[править | править код]

Модель[править | править код]

См. также[править | править код]

Примечания[править | править код]

Навигация

Размещение патинко

История[править | править код]

Модель[править | править код]

См. также[править | править код]

Примечания[править | править код]

Навигация

Поиск