Автоматическое извлечение контента ( ACE ) - это исследовательская программа для разработки передовых технологий извлечения информации, организованная NIST с 1999 по 2008 год, после MUC и предшествующей конференции по анализу текста .
Цели и усилия
В общем, программа ACE мотивирована теми же проблемами, что и предшествовавшая ей программа MUC, и решает их. Программа ACE, однако, определяет цели исследования в терминах целевых объектов (т.е. сущностей, отношений и событий), а не в терминах слов в тексте. Например, задача так называемой «именованной сущности», как определено в MUC, состоит в том, чтобы идентифицировать те слова (на странице), которые являются именами сущностей. В ACE, с другой стороны, соответствующая задача состоит в том, чтобы идентифицировать названный объект. Это другая задача, более абстрактная и включающая более явный вывод при выработке ответа. На самом деле задача состоит в том, чтобы обнаружить вещи, которых «нет».
В то время как программа ACE направлена на извлечение информации из источников звука и изображений в дополнение к чистому тексту, исследовательские усилия ограничиваются извлечением информации из текста. Фактическое преобразование аудио- и графических данных в текст не является частью исследовательской работы ACE, хотя обработка выходных данных ASR и OCR с таких преобразователей входит.
Усилия включают:
- детальное определение исследовательских задач,
- сбор и аннотирование данных, необходимых для обучения, развития и оценки,
- поддержка исследования с помощью инструментов оценки и исследовательских семинаров .
Темы и упражнения
Учитывая текст на естественном языке , задача ACE состоит в том, чтобы обнаружить:
- объекты, упомянутые в тексте, такие как: люди, организации, местоположения, объекты, оружие, транспортные средства и геополитические объекты.
- отношения между объектами, например: человек A является менеджером компании B. Типы отношений включают: ролевые, частные, локальные, близкие и социальные.
- события, упомянутые в тексте, такие как: взаимодействие, движение, передача, создание и разрушение.
Программа относится к текстам на английском , арабском и китайском языках .
Корпус ACE - один из стандартных тестов для тестирования новых алгоритмов извлечения информации .
Рекомендации
- Джордж Доддингтон @ NIS T, Алексис Митчелл @ LD C, Марк Пшибоки @ NIS T, Lance Ramshaw @ BB N, Стефани Штрассель @ LD C, Ральф Вайшедель @ BB N. Программа автоматического извлечения контента (ACE) - задачи, данные и оценка. 2004 г.
Внешние ссылки
- MUC - предшественник ACE.
- ACE, архивировано 25 сентября 2013 г., на Wayback Machine (LDC).
- ACE (NIST)