Вопросно-ответная система

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.

Классификация[править | править код]

Вопросно-ответные системы можно условно разделить на:

  • Узкоспециализированные QA-системы работают в конкретных областях (например, медицина или обслуживание автомобилей).
  • Общие QA-системы работают с информацией по всем областям знаний, таким образом появляется возможность вести поиск в смежных областях.

Архитектура[править | править код]

Первые QA-системы[1] были разработаны в 1960-х годах и являлись естественно-языковыми оболочками для экспертных систем, ориентированных на конкретные области. Современные системы предназначаются для поиска ответов на вопросы в предоставляемых документах с использованием технологий обработки естественных языков (NLP).

Современные QA-системы обычно включают особый модуль — классификатор вопросов, который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод — поиск в документах — предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ.

Схема работы[править | править код]

Производительность вопросно-ответной системы зависит от эффективности используемых методов анализа текстов и от качества текстовой базы — если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база — тем лучше, но только если она содержит нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации[2]. Это ведёт к следующим моментам:

  1. Так как информация представлена в разных формах, то выше полнота информации. QA-система с большей вероятностью найдет ответ.
  2. Правильная информация чаще повторяется, поэтому ошибки поиска ответов можно минимизировать.
  3. Точность поиска информации существенно зависит от достоверности информации в хранилищах, а также от эффективности методов анализа информации и формирования ответов.

Проблемы[править | править код]

В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем[3]. Предлагалось рассмотреть следующие вопросы:

Типы вопросов
Разные вопросы требуют разных методов поиска ответов. Поэтому нужно составить или улучшить методические списки типов возможных вопросов.
Обработка вопросов
Одну и ту же информацию можно запросить разными способами. Требуется создать эффективные методы понимания и обработки семантики (смысла) предложения. Важно, чтобы программа распознавала эквивалентные по смыслу вопросы, независимо от используемых стиля, слов, синтаксических взаимосвязей и идиом. Хотелось бы, чтобы QA-система разделяла сложные вопросы на несколько простых, и правильно трактовала контекстно-зависимые фразы, возможно, уточняя их у пользователя в процессе диалога.
Контекстные вопросы
Вопросы задаются в определенном контексте. Контекст может уточнить запрос, устранить двусмысленность или следить за ходом мыслей пользователя по серии вопросов.
Источники знаний для QA-системы
Перед тем как отвечать на вопрос, неплохо было бы осведомиться о доступных базах текстов. Какие бы способы обработки текстов ни применялись, мы не найдем правильного ответа, если его нет в базах.
Выделение ответов
Правильное выполнение этой процедуры зависит от сложности вопроса, его типа, контекста, качества доступных текстов, метода поиска и др. — огромного числа факторов. Поэтому подходить к изучению методов обработки текста нужно со всей осторожностью, и эта проблема заслуживает особого внимания.
Формулировка ответа
Ответ должен быть как можно более естественным. В некоторых случаях достаточно и простого выделения его из текста. К примеру, если требуется наименование (имя человека, название прибора, болезни), величина (денежный курс, длина, размер) или дата («Когда родился Иван Грозный?») — прямого ответа достаточно. Но иногда приходится иметь дело со сложными запросами, и здесь нужны особые алгоритмы слияния ответов из разных документов.
Ответы на вопросы в реальном времени
Нужно сделать систему, которая бы находила ответы в хранилищах за несколько секунд, независимо от сложности и двусмысленности вопроса, размера и обширности документной базы.
Многоязыковые запросы
Разработка систем для работы и поиска на других языках (в том числе автоматический перевод).
Интерактивность
Зачастую информация, предлагаемая QA-системой в качестве ответа, неполна. Возможно, система неправильно определила тип вопроса или неправильно «поняла» его. В этом случае пользователь может захотеть не только переформулировать свой запрос, но и «объясниться» с программой с помощью диалога.
Механизм рассуждений (вывода)
Некоторые пользователи хотели бы получить ответ, выходящий за рамки доступных текстов. Для этого в QA-систему нужно добавить знания, общие для большинства областей (см. Общие онтологии в информатике), а также средства автоматического вывода новых знаний.
Профили пользователей QA-систем
Сведения о пользователе, такие как область интересов, манера его речи и рассуждения, подразумеваемые по умолчанию факты, могли бы существенно увеличить производительность системы.

Направления развития вопросно-ответных систем[править | править код]

С момента появления первых прототипов вопросно-ответных систем их область применения значительно расширилась[4]. Например, их используют в ответах на вопросы, связанные со временем, геолокационные вопросы, вопросы определения понятий, библиографические, многоязыковые вопросы, вопросы, связанные с мультимедиа (визуальной, аудио- и видео- информацией). Изучаются смежные области, такие как построение интерактивных QA-систем (уточняющие вопросы, требующиеся для разъяснения первоначального), повторное использование ответов и представление знаний, использование логического вывода из имеющейся информации для получения ответов на вопросы и т. п., прогнозирование, какие вопросы могут быть заданы, анализ настроения.

Оценка качества вопросно-ответных систем[править | править код]

Вопросно-ответные системы на постоянной основе обсуждаются в рамках проектов: TREC[5], CLEF  (англ.)[6], NTCIR[7], РОМИП[8].

Примечания[править | править код]

  1. Hirschman, L. & Gaizauskas, R. (2001) Natural Language Question Answering. The View from Here Архивная копия от 29 января 2012 на Wayback Machine. Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.
  2. Lin, J. (2002). The Web as a Resource for Question Answering: Perspectives and Challenges. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
  3. Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, C-Y., Maiorano, S., Miller, G., Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA) Архивная копия от 25 апреля 2012 на Wayback Machine.
  4. Maybury, M. T. editor. 2004. New Directions in Question Answering. Архивная копия от 3 марта 2021 на Wayback Machine AAAI/MIT Press.
  5. TREC competition Архивная копия от 24 июня 2007 на Wayback Machine (англ.)
  6. CLEF evaluation campaign Архивная копия от 23 июня 2007 на Wayback Machine (англ.)
  7. NTCIR project Архивная копия от 1 июля 2007 на Wayback Machine (англ.)
  8. РОМИП. Дата обращения: 4 июня 2014. Архивировано 18 июня 2014 года.

Литература[править | править код]

Ссылки[править | править код]

QA-системы и демоверсии
  • Одна из первых размещённых в интернет вопросно-ответная система START на сайте MIT.
  • Вопросно-ответная система AskNet Search на сайте asknet.ru (первоначально Stocona Search).
  • Вопросно-ответная система BrainBoost на сайте Answers.com  (англ.) (первоначально BrainBoost.com).
  • QA-система, встроенная в поисковик Ask.com.
  • Вопросно-ответная система OpenEphyra с открытым исходным кодом.
  • Многоязыковая QA-система askEd!m (English, Japanese  (недоступная ссылка с 13-05-2013 [4001 день] — история), Chinese  (недоступная ссылка с 13-05-2013 [4001 день] — история), Русский  (недоступная ссылка с 13-05-2013 [4001 день] — история) and Swedish  (недоступная ссылка с 13-05-2013 [4001 день] — история)).
  • Проект Evi от True Knowledge  (англ.).
Специализированные QA-системы