Вопросно-ответная система

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.

Классификация[править | править вики-текст]

Вопросно-ответные системы можно условно разделить на:

  • Узкоспециализированные QA-системы работают в конкретных областях (например, медицина или обслуживание автомобилей).
  • Общие QA-системы работают с информацией по всем областям знаний, таким образом появляется возможность вести поиск в смежных областях.

Архитектура[править | править вики-текст]

Первые QA-системы[1] были разработаны в 1960х годах и являлись естественно-языковыми оболочками для экспертных систем, ориентированных на конкретные области. Современные системы предназначаются для поиска ответов на вопросы в предоставляемых документах с использованием технологий обработки естественных языков (NLP).

Современные QA-системы обычно включают особый модуль — классификатор вопросов, который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод — поиск в документах — предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ.

Схема работы[править | править вики-текст]

Производительность вопросно-ответной системы зависит от эффективности используемых методов анализа текстов и от качества текстовой базы — если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база — тем лучше, но только если она содержит нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации[2]. Это ведёт к следующим моментам:

  1. Так как информация представлена в разных формах, то выше полнота информации. QA-система с большей вероятностью найдет ответ.
  2. Правильная информация чаще повторяется, поэтому ошибки поиска ответов можно минимизировать.
  3. Точность поиска информации существенно зависит от достоверности информации в хранилищах, а также от эффективности методов анализа информации и формирования ответов.

Проблемы[править | править вики-текст]

В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем[3]. Предлагалось рассмотреть следующие вопросы:

Типы вопросов
Разные вопросы требуют разных методов поиска ответов. Поэтому нужно составить или улучшить методические списки типов возможных вопросов.
Обработка вопросов
Одну и ту же информацию можно запросить разными способами. Требуется создать эффективные методы понимания и обработки семантики (смысла) предложения. Важно, чтобы программа распознавала эквивалентные по смыслу вопросы, независимо от используемых стиля, слов, синтаксических взаимосвязей и идиом. Хотелось бы, чтобы QA-система разделяла сложные вопросы на несколько простых, и правильно трактовала контекстно-зависимые фразы, возможно, уточняя их у пользователя в процессе диалога.
Контекстные вопросы
Вопросы задаются в определенном контексте. Контекст может уточнить запрос, устранить двусмысленность или следить за ходом мыслей пользователя по серии вопросов.
Источники знаний для QA-системы 
Перед тем как отвечать на вопрос, неплохо было бы осведомиться о доступных базах текстов. Какие бы способы обработки текстов ни применялись, мы не найдем правильного ответа, если его нет в базах.
Выделение ответов
Правильное выполнение этой процедуры зависит от сложности вопроса, его типа, контекста, качества доступных текстов, метода поиска и др. — огромного числа факторов. Поэтому подходить к изучению методов обработки текста нужно со всей осторожностью, и эта проблема заслуживает особого внимания.
Формулировка ответа
Ответ должен быть как можно более естественным. В некоторых случаях достаточно и простого выделения его из текста. К примеру, если требуется наименование (имя человека, название прибора, болезни), величина (денежный курс, длина, размер) или дата («Когда родился Иван Грозный?») — прямого ответа достаточно. Но иногда приходится иметь дело со сложными запросами, и здесь нужны особые алгоритмы слияния ответов из разных документов.
Ответы на вопросы в реальном времени 
Нужно сделать систему, которая бы находила ответы в хранилищах за несколько секунд, независимо от сложности и двусмысленности вопроса, размера и обширности документной базы.
Многоязыковые запросы
Разработка систем для работы и поиска на других языках (в том числе автоматический перевод).
Интерактивность
Зачастую информация, предлагаемая QA-системой в качестве ответа, неполна. Возможно, система неправильно определила тип вопроса или неправильно «поняла» его. В этом случае пользователь может захотеть не только переформулировать свой запрос, но и «объясниться» с программой с помощью диалога.
Механизм рассуждений (вывода)
Некоторые пользователи хотели бы получить ответ, выходящий за рамки доступных текстов. Для этого в QA-систему нужно добавить знания, общие для большинства областей (см. Общие онтологии в информатике), а также средства автоматического вывода новых знаний.
Профили пользователей QA-систем
Сведения о пользователе, такие как область интересов, манера его речи и рассуждения, подразумеваемые по умолчанию факты, могли бы существенно увеличить производительность системы.

Направления развития вопросно-ответных систем[править | править вики-текст]

С момента появления первых прототипов вопросно-ответных систем их область применения значительно расширилась[4]. Например, их используют в ответах на вопросы, связанные со временем, геолокационные вопросы, вопросы определения понятий, библиографические, многоязыковые вопросы, вопросы, связанные с мультимедиа (визуальной, аудио- и видео- информацией). Изучаются смежные области, такие как построение интерактивных QA-систем (уточняющие вопросы, требующиеся для разъяснения первоначального), повторное использование ответов и представление знаний, использование логического вывода из имеющей информации для получения ответов на вопросы и т. п., прогнозирование, какие вопросы могут быть заданы, анализ настроения.

Оценка качества вопросно-ответных систем[править | править вики-текст]

Вопросно-ответные системы на постоянной основе обсуждаются в рамках проектов: TREC[5], CLEF (англ.)русск.[6], NTCIR[7], РОМИП[8].

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Hirschman, L. & Gaizauskas, R. (2001) Natural Language Question Answering. The View from Here. Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.
  2. Lin, J. (2002). The Web as a Resource for Question Answering: Perspectives and Challenges. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
  3. Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, C-Y., Maiorano, S., Miller, G., Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA).
  4. Maybury, M. T. editor. 2004. New Directions in Question Answering. AAAI/MIT Press.
  5. TREC competition (англ.)
  6. CLEF evaluation campaign (англ.)
  7. NTCIR project (англ.)
  8. РОМИП

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]

QA-системы и демо-версии
Специализированные QA-системы