Векторное представление слов

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Векторное представление — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов из для , значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика.

Существует несколько методов для построения такого сопоставления. Так, используют нейронные сети[1] , методы понижения размерности в применении к матрицам совместных упоминаний слов (word co-occurrence matrices)[2] и явные представления, обучающиеся на контекстах упоминаний слов (explicit representations)[3].

Продемонстрировано[кем?], что векторные представления слов и фраз способны значительно улучшить качество работы некоторых методов автоматической обработки естественного языка (например, синтаксический анализ[4] и анализ тональности[5]).

Ссылки[править | править вики-текст]

  1. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg & Dean, Jeffrey (2013), "Distributed Representations of Words and Phrases and their Compositionality", arΧiv:1310.4546 [cs.CL] 
  2. Lebret, Rémi & Collobert, Ronan (2013), "Word Emdeddings through Hellinger PCA", arΧiv:1312.5542 [cs.CL] 
  3. «Linguistic Regularities in Sparse and Explicit Word Representations». Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, USA, June. Association for Computational Linguistics. 2014.
  4. «Parsing with compositional vector grammars». Proceedings of the ACL conference. 2013.
  5. «Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank». Conference on Empirical Methods in Natural Language Processing.