Метод Леска

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.

Принцип работы[править | править вики-текст]

Для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения, так и в ближайшем контексте рассматриваемого вхождения слова. В качестве наиболее вероятного значения выбирается то, для которого такое пересечение оказалось больше. В качестве слов Леск рассматривал буквенные цепочки, что оправданно для английского языка.

В качестве примера можно рассмотреть два значения слова кошка:

  1. кошка1 — домашнее животное из породы кошачьих,
  2. кошка2 — предмет альпинистского снаряжения.

и текст «в Китае выведены новые породы кошек». С определением (1) у этого текста одно общее слово — породы, а с определением (2) ни одного. Следовательно, алгоритм Леска выберет значение кошка1.

Работы[править | править вики-текст]

В последнее время появилось большое количество работ, предлагающих использовать модификации алгоритма Леска. В этих работах выдвигаются идеи, связанные с дополнительным использованием различных словарей (тезаурусы, словари синонимов) или моделей (морфологические, синтаксические и т. п.), см., например[1]:

  • Kwong, 2001;
  • Nastase and Szpakowicz, 2001;
  • Wilks and Stevenson, 1998, 1999;
  • Mahesh et al., 1997;
  • Cowie et al., 1992;
  • Yarowsky, 1992;
  • Pook and Catlett, 1988;
  • Kilgarriff & Rosensweig, 2000,
  • Alexander Gelbukh, Grigori Sidorov, 2004.

Точность метода[править | править вики-текст]

Относительно больших экспериментов на проверку этого метода не проводилось, кроме как на корпусе книги «Гордость и предубеждение» и газеты Associated Press. Результат варьировался от 50 % до 70 %.

Примечания[править | править вики-текст]

  1. Необходимо заметить, что все эти работы, кроме (Nastase and Szpakowicz, 2001), ориентированы на обработку обычных текстов, а не словарей, и ни одна не использует в качестве материала для обработки именно толковый словарь. Кроме того, практически всегда дело ограничивается достаточно небольшими экспериментами и не производится обработка достаточно больших массивов данных.

Литература[править | править вики-текст]