Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Общая архитектура для текстовой инженерии или GATE - это набор инструментов Java , первоначально разработанный в Университете Шеффилда в 1995 году и теперь используемый во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих задач обработки естественного языка , включая извлечение информации в много языков. [1]

GATE сравнивают с NLTK , R и RapidMiner . [2] Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM. [3]

Сообщество и исследования GATE принимали участие в нескольких европейских исследовательских проектах, включая TAO , SEKT , NeOn, Media-Campaign, Musing, Service-Finder , LIRICS и KnowledgeWeb , а также во многих других проектах.

По состоянию на 28 мая 2011 г., 881 человек находится в списке рассылки «Gate-users» на SourceForge.net, и с момента перехода проекта на SourceForge в 2005 году зарегистрировано 111 932 загрузок с SourceForge . [4] Статья «GATE: Framework и графика» среда разработки для надежных инструментов и приложений НЛП » [5] с момента публикации получила более 2000 ссылок (согласно Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE [6], включают «Создание поисковых приложений: Lucene, LingPipe и Gate» Ману Кончади [7] и «Введение в лингвистическую аннотацию и текстовую аналитику», пользователя Graham Wilcock. [8]

Особенности [ править ]

GATE включает в себя извлечение информации системы под названием ЭНИ ( почти-Новая информация Extraction System ) , которая представляет собой набор модулей , содержащий Tokenizer , в географических названия , а приговор сплиттер , а часть речи Tagger , через названные лица преобразователь и кореферентность Таггер. ANNIE можно использовать как есть, чтобы обеспечить базовую функциональность извлечения информации или предоставить отправную точку для более конкретных задач.

В настоящее время GATE обслуживает следующие языки: английский , китайский , арабский , болгарский , французский , немецкий , хинди , итальянский , кебуанский , румынский , русский , датский .

Плагины включены для машинного обучения с Weka , RASP, MAXENT, SVM Light, а также для интеграции LIBSVM и внутренней реализации персептрона для управления онтологиями, такими как WordNet , для запросов поисковых систем, таких как Google или Yahoo , для части речевых тегов с Brill или TreeTagger и многими другими. Также доступны многие внешние плагины, например, для обработки твитов . [9]

GATE принимает ввод в различных форматах, таких как TXT , HTML , XML , Doc , PDF- документы, а также Java Serial , PostgreSQL , Lucene , Oracle Databases с помощью хранилища RDBMS через JDBC .

Преобразователи JAPE используются в GATE для управления аннотациями к тексту. Документация представлена ​​в Руководстве пользователя GATE. [10] Учебное пособие также было написано Press Association Images. [11]

Разработчик GATE [ править ]

Главное окно GATE 5.

На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок <A> из файла HTML . Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.

ВОРОТА Мимир [ править ]

GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда сами данные являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL .

См. Также [ править ]

  • Архитектура управления неструктурированной информацией (UIMA)
  • OpenNLP
  • Pheme , крупный проект ЕС по раннему обнаружению ложной информации в социальных сетях, управляемый группой GATE.

Ссылки [ править ]

  1. ^ Языки, упомянутые на http://gate.ac.uk/gate/plugins/, включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский.
  2. ^ «Анализ текста с открытым исходным кодом, Сет Граймс - BeyeNETWORK» . Проверено 17 декабря +2016 .
  3. ^ Попов, Борислав; Кирьяков, Атанас; Огнянов, Дамян; Манов, Димитар; Кирилов, Ангел (1 сентября 2004 г.). «KIM - семантическая платформа для извлечения и поиска информации» . Инженерия естественного языка . 10 (3–4): 375–392. DOI : 10.1017 / S135132490400347X . Проверено 17 декабря 2016 г. - через Cambridge Core.
  4. ^ "ВОРОТА" . Проверено 17 декабря +2016 .
  5. ^ «GATE: структура и графическая среда разработки для надежных инструментов и приложений НЛП» , авторы Каннингем Х., Мейнард Д. , Бончева К. и Таблан В. (В материалах 40-й юбилейной встречи Ассоциации компьютерной лингвистики, 2002)
  6. ^ "GATE.ac.uk - продажа / tao / split.html" . Проверено 17 декабря +2016 .
  7. ^ Konchady, Мана. Создание приложений для поиска: Lucene, LingPipe и Gate . Издательство Мустру. 2008 г.
  8. ^ Уилкок, Graham (1 январь 2009). Введение в лингвистическую аннотацию и текстовую аналитику . Издатели Morgan & Claypool. ISBN 9781598297386. Проверено 17 декабря 2016 г. - через Google Книги.
  9. ^ "GATE.ac.uk - wiki / twitie.html" . Проверено 17 декабря +2016 .
  10. ^ "GATE.ac.uk - продажа / tao / splitch8.html" . Проверено 17 декабря +2016 .
  11. ^ Thakker, Dhavalkumar (17 июля 2009). «Реализация семантической паутины: учебник по грамматике JAPE» . Проверено 17 декабря +2016 .

Внешние ссылки [ править ]

  • Официальный веб-сайт