Википедия:Вики-конференция 2007/Программа/Доклады/Оценка результатов поиска семантически близких слов в Википедии

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Название доклада[править код]

Оценка результатов поиска семантически близких слов в Википедии

Докладчик[править код]

А.А. Крижановский (AKA MBG)

Тезисы[править код]

Под семантически близкими словами (СБС) подразумеваются слова близкие по значению, встречающиеся в одном контексте. Это могут быть синонимы (чертог, дворец), антонимы (запутать, распутать) и др.

Во многих задачах умение составить список СБС, либо сравнить слова и вычислить — какие слова ближе по значению, оказывается востребованными.

Во-первых, это так называемый «поиск по смыслу», при котором пользователь вводит слово мобильник, но видит страницы, содержащие другие слова, например, мобильный телефон, сотовый и др. Поисковая система расширила или переформулировала запрос с помощью СБС.

Во-вторых, запросно-ответные системы на этапе обработки вопроса пытаются вычислить, к какой области относится вопрос пользователя, пытаются найти похожие вопросы в базе данных. Поиск вопросов основан, в том числе, и на использовании списков СБС.

В-третьих, для выбора одного из значений многозначного слова, (например, слово граф может обозначать либо титул, либо математический объект) используют СБС.

В-четвёртых, есть интерес к автоматическому созданию специальных словарей — тезаурусов на основе СБС. Прелесть таких тезаурусов в том, что они строятся по тексту и могут наглядно, в виде картинки, предъявить ключевые понятия, найденные в тексте, и то, как они связаны.

В-пятых, трудоёмкая задача составления словарей синонимов (и не только синонимов) требует кропотливой работы лексикографов. Своевременную помощь оказывают поисковые алгоритмы, предлагающие списки близких по значению слов для последующего вдумчивого разбора лингвистом.

Количество научных работ, посвящённых Википедии, стремительно растёт. Осветим одну из граней этого феномена, а именно: корпус текстов Википедии обладает особой привлекательностью для поисковых алгоритмов. Вики занимает нишу между, с одной стороны, размеченными корпусами текстов, а с другой – интернет-страницами (где нет никаких надёжных подсказок для алгоритмов, кроме гиперссылок и частоты слов).

Капица П.Л. писал: «...теория — это хорошая вещь, но правильный эксперимент остаётся навсегда». Однако, чтобы провести эксперимент и оценить результаты поиска близких по значению слов нужен тестовый набор, который создан людьми вручную, а не автоматически, и поэтому считается точным.

Для английского языка такой набор есть – это 353 пары слов, в оценке которых участвовало два десятка людей. Уже более 11 метрик и алгоритмов были оценены и их можно сравнить с помощью этих данных, но только для данных на английском. Именно этот набор использовался и для оценки работы программы Synarcher в английской Википедии.

Было бы интересно оценить работу алгоритмов в русской Википедии. Предлагаю проставить оценки в тестовом наборе из русских слов и приглашаю на страницу проекта: http://ru.wikipedia.org/wiki/Участник:AKA_MBG/Wordsim.