Вопросно-ответная система


Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.

Первые QA-системы[1] были разработаны в 1960-х годах и являлись естественно-языковыми оболочками для экспертных систем, ориентированных на конкретные области. Современные системы предназначаются для поиска ответов на вопросы в предоставляемых документах с использованием технологий обработки естественных языков (NLP).

Современные QA-системы обычно включают особый модуль — классификатор вопросов, который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод — поиск в документах — предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ.

Производительность вопросно-ответной системы зависит от эффективности используемых методов анализа текстов и от качества текстовой базы — если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база — тем лучше, но только если она содержит нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации[2]. Это ведёт к следующим моментам:

В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем[3]. Предлагалось рассмотреть следующие вопросы:

С момента появления первых прототипов вопросно-ответных систем их область применения значительно расширилась[4]. Например, их используют в ответах на вопросы, связанные со временем, геолокационные вопросы, вопросы определения понятий, библиографические, многоязыковые вопросы, вопросы, связанные с мультимедиа (визуальной, аудио- и видео- информацией). Изучаются смежные области, такие как построение интерактивных QA-систем (уточняющие вопросы, требующиеся для разъяснения первоначального), повторное использование ответов и представление знаний, использование логического вывода из имеющейся информации для получения ответов на вопросы и т. п., прогнозирование, какие вопросы могут быть заданы, анализ настроения.