Автоматическое получение размеченного корпуса

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Если методы обучения без учителя в проблеме разрешения многозначности полагаются на неаннотированный (неразмеченный) корпус, то обучение с учителем коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов обучения. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях возможность получить качественно размеченный корпус не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому, перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.

Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.

Существующие решения[править | править вики-текст]

Одним из решений является алгоритм, разработанный Радой Майхелсиа[1] и основанный на получении контекстов из выдачи поисковых движков (типо Google или Yandex) с помощью знаний, имеющихся в тезаурусе. Весь процесс получения корпуса состоит из трёх этапов: препроцессинг, поиск и постпроцессинг.

  1. Препроцессинг. Для каждого слова w и его значения #i берутся их однозначные синонимы, а также слова, полученные после обработки глосса (словарного толкования, грамматических пояснений, примеров использования слова в различных контекстах и т. п.)
  2. Поиск. Затем, на стадии поиска формируются поисковые запросы, помогающие найти именно те контексты, в которых данное слово присутствует в нужном нам значении.
  3. Постпроцессинг. После этого, полученные контексты обрабатываются, фильтруются плохие и т. д.

Эффективность метода позволяет получать большое количество контекстов, примерно 91 % из которых являются правильными, что является довольно высоким результатом, достаточным для обучения машины. Также, у этого метода существует последователи и предшественники (например, алгоритм Leacock и Chodorow), однако все они так и не сравнились с ним по эффективности.

Второй метод, придуманный Яровски[2] и часто называемый bootstrapping, предлагает, начиная с небольшого количества вручную определённых примеров (так называемым seed examples), автоматически и итерационно расширять классы, разделяя оставшиеся контексты в неразмеченном тексте на классы, получая, таким образом, обучающую выборку. При этом за аксиому берутся такие вещи, как «one sense per collocation» и «one sense per discourse». Однако, этот способ также менее точен, чем способ Mihalcea, так как в данном случае не получаются однозначные контексты.

Также, существует ещё 3 метода[3], практически неприменимые к русскому языку:

  • каталоги веб-страниц (такие как Open Directory Project);
  • выравненные билингвальные тексты (однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
  • коллаборативная работа в стиле Вики (Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются волонтёрам в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за непрофессионализма добровольцев (62.8 % согласия между людьми по сравнению 85,5 % на Senseval).

Итог[править | править вики-текст]

Результаты[править | править вики-текст]

Автоматическое получение примеров для тренировки классификатора (обучение с учителем), как оказалось, является наилучшим подходом майнинга интернета для разрешения лексической многозначности. Стоит привести некоторые обнадёживающие результаты:

  • В некоторых экспериментах, качества данных из интернета практически сравнялось с качеством корпуса, сделанным человеком: сочетание получения с помощью однозначных синонимов и бутстреппинга из SemCor’овских примеров[4] и примеры, полученные из ODP[5]. В первом, однако, примеры из SemCor’a необходимы и существуют только для английского языка, и тестирование проводилось со слишком небольшим количеством существительных, а во втором покрытие эксперимента слишком мало и неизвестно, насколько сильно ухудшается качество полученного корпуса при его увеличении.
  • Также, было показано[6], что почти любая техника обучения с учителем, тренированная на автоматически полученных из интернета корпусах, превосходит все техники обучения без учителя, участвовавшие в Senseval-2.
  • Примеры из интернета принесли огромную пользу в плане эффективности лучшим английским all-words алгоритмам на Senseval-2[7].

Проблемы[править | править вики-текст]

Однако, также существуют определённые проблемы и трудности, напрямую связанных с получением подобного корпуса:

  • Хорошее качество полученных примеров (то есть, правильная принадлежность примеров к классам значений) не обязательно обеспечивают высокую точность классификатора[8].
  • Наиболее объективные эксперименты по оценке качества полученных примеров показали[9], что обучение на этих примеров существенно повышает уровень точности разрешения многозначности, однако, тем не менее, результаты далеки от идеальных: они не то, что хуже полученных вручную, — она даже не превышают качество полученное с помощью most-frequent-sense baseline.
  • Результаты не всегда удаётся повторить: те же самые или похожие методы могут привести к различным результатам в разных экспериментах. В качестве сравнения можно сравнить эксперименты: Mihalcea (2002[10]) с Agirre и Martínez (2004[9]), или Agirre и Martínez (2000[8]) с Mihalcea и Moldovan (1999[11]). Результаты, полученные с помощью интернета, показали, что данные очень чувствительны даже к небольшим изменениям в обучающем алгоритме, даже к дате получения корпуса (выдача поисковых машин постоянно меняется), и к незаметным эвристическим проблемам (например, различия в фильтрах по отбрасыванию части полученных примеров).
  • На результаты сильно влияет такое явление как «перекос» (то есть, на соотношение частотностей примеров одних значений слова по сравнению с другими[9]). Так до конца неясно, является ли это проблемой только информации из Интернета или это проблема, присущая обучению с учителем, или же это проблема того, каким образом методы оцениваются (в самом деле, сравнительно небольшое количество данных Senseval вполне возможно является не такой уж и репрезентативной вещью по сравнению со всем интернетом в качестве корпуса).
  • В любом случае, данные из интернета обладают перекосом, потому что запросы к поисковым системам непосредственно ограничивают множество полученных контекстов. Существуют подходы для смягчения этого эффекта, такие как: использование нескольких seeds или запросов для каждого из значений слова[10] или присваивание значениям соответствующих категорий из каталогов веб-сайтов[5]; однако эта проблема ещё далека от полного разрешения.
  • У любого полученного корпуса контекстов не всегда ясен вопрос с лицензией по его использованию (легальная составляющая неясна).

Будущее области[править | править вики-текст]

Кроме вышеперечисленных техник получения корпуса из веба, также были проведены некоторые другие эксперименты, использующие интернет:

  • Интернет как социальная сеть несколько раз был успешно использован для коллаборативной аннотации анонимными пользователями (проект OMWE, Open Mind Word Expert project)[12]: он был применён уже три раза для задач Senseval-3 (для английского, румынского языков и многоязыковой задачи).
  • Интернет также использовался для обогащения значений WordNet'a знаниями о теме корпуса(domain-specific information): так называемые topic signatures[13] and Web directories[5], которые успешно применялись для разрешения многозначности.
  • Также, с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов[14][15].

Однако, возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру, малоизвестно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета параллельные корпусы, хотя и эффективные алгоритмы для обработки таких корпусов уже существую. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.

Примечания[править | править вики-текст]

  1. Rada Mihalcea, Dan Moldovan. An Automatic method for generating sense tagged corpora.
  2. Yarowsky, D. «Unsupervised Word Sense Disambiguation Rivaling Supervised Methods». Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, pp. 189—196, 1995.
  3. Word Sense Disambiguation: Algorithms and Applications, edited by Eneko Agirre and Philip Edmonds (2006), Springer.
  4. Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
  5. 1 2 3 Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatic association of Web directories to word senses. Computational Linguistics, 29(3): 485—502.
  6. Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automati- cally retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.
  7. Mihalcea, Rada. 2002a. Word sense disambiguation with pattern learning and automatic feature selection. Natural Language Engineering, 8(4): 348—358.
  8. 1 2 Agirre, Eneko & David Martínez. 2000. Exploring automatic word sense disambiguation with decision lists and the Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxembourg, 11-19.
  9. 1 2 3 Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automatically retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.
  10. 1 2 Mihalcea, Rada. 2002b. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
  11. Mihalcea, Rada & Dan Moldovan. 1999. An automatic method for generating sense tagged corpora. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, U.S.A., 461—466.
  12. Chklovski, Tim & Rada Mihalcea. 2002. Building a sense tagged corpus with Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Phila- delphia, U.S.A., 116—122.
  13. Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Enriching very large ontologies using the WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Germany.
  14. Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008.
  15. Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. зав (russian)