Метод Леска

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.

Принцип работы[править | править вики-текст]

Для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения, так и в ближайшем контексте рассматриваемого вхождения слова. В качестве наиболее вероятного значения выбирается то, для которого такое пересечение оказалось больше. В качестве слов Леск рассматривал буквенные цепочки, что оправданно для английского языка.

В качестве примера можно рассмотреть два значения слова кошка:

  1. кошка1 — домашнее животное из породы кошачьих,
  2. кошка2 — предмет альпинистского снаряжения.

и текст «в Китае выведены новые породы кошек». С определением (1) у этого текста одно общее слово — породы, а с определением (2) ни одного. Следовательно, алгоритм Леска выберет значение кошка1.

Критика алгоритма и другие схожие методы[править | править вики-текст]

К сожалению, подход Леска очень чувствителен к точной формулировке определений, таким образом, отсутствие определенного слова может радикально изменить результаты. Ещё одним минусом является то, что алгоритм определяет перекрытия только среди толкований смыслов, которые рассматриваются. Это существенное ограничение, которое состоит в том, что толкования словаря имеют тенденцию быть довольно короткими и не обеспечивают достаточный словарь, чтобы показывать разницу между схожими по смыслу определениями.

В последнее время появилось большое количество работ, предлагающих использовать модификации алгоритма Леска. В этих работах выдвигаются идеи, связанные с дополнительным использованием различных словарей (тезаурусы, словари синонимов) или моделей (морфологические, синтаксические и т. п.), см., например[1]:

Относительно алгоритма Леска есть много исследований и расширений:

  • Квонг (Kwong), 2001 [2];
  • Нэстасе и Шпакович (Nastase and Szpakowicz), 2001 [3];
  • Уилкс и Стивенсон (Wilks and Stevenson), 1998, 1999 [4] [5];
  • Махеш и др, (Mahesh), 1997;
  • Коуи и др., (Cowie), 1992 [6];
  • Яровски (Yarowsky), 1992 [7];
  • Пук и Катлет (Pook and Catlett), 1988 [8];;
  • Калгриф и Розенцвейг (Kilgarriff & Rosensweig), 2000 [9];
  • Александр Гельбух, Григорий Сидоров, 2004 [10];.

Точность метода[править | править вики-текст]

Относительно больших экспериментов на проверку этого метода не проводилось, кроме как на корпусе книги «Гордость и предубеждение» и газеты Associated Press. Результат варьировался от 50 % до 70 %.

Примечания[править | править вики-текст]

  1. Необходимо заметить, что все эти работы, кроме (Nastase and Szpakowicz, 2001), ориентированы на обработку обычных текстов, а не словарей, и ни одна не использует в качестве материала для обработки именно толковый словарь. Кроме того, практически всегда дело ограничивается достаточно небольшими экспериментами и не производится обработка достаточно больших массивов данных.
  2. Kwong
  3. Nastase
  4. Wilks1
  5. Wilks2
  6. Cowie
  7. Yarowsky
  8. Pook
  9. Rosensweig
  10. Гельбух

Литература[править | править вики-текст]