Главное окно GATE Developer v5 | |
Разработчики) | Исследовательская группа GATE , факультет компьютерных наук, Университет Шеффилда |
---|---|
изначальный выпуск | 1995 |
Стабильный выпуск | 8.6.1 (17 января 2020 г . [±] | )
Предварительный выпуск | 9.0-SNAPSHOT (17 февраля 2021 г. (ночные сборки выпускаются каждый день)) [±] |
Репозиторий | |
Написано в | Ява |
Операционная система | Кроссплатформенность |
Доступно в | английский |
Тип | Text Mining Извлечение информации |
Лицензия | LGPL |
Интернет сайт | ворота |
Общая архитектура для текстовой инженерии или GATE - это набор инструментов Java , первоначально разработанный в Университете Шеффилда в 1995 году и теперь используемый во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих задач обработки естественного языка , включая извлечение информации в много языков. [1]
GATE сравнивают с NLTK , R и RapidMiner . [2] Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM. [3]
Сообщество и исследования GATE принимали участие в нескольких европейских исследовательских проектах, включая TAO , SEKT , NeOn, Media-Campaign, Musing, Service-Finder , LIRICS и KnowledgeWeb , а также во многих других проектах.
По состоянию на 28 мая 2011 г., 881 человек находится в списке рассылки «Gate-users» на SourceForge.net, и с момента перехода проекта на SourceForge в 2005 году зарегистрировано 111 932 загрузок с SourceForge . [4] Статья «GATE: Framework и графика» среда разработки для надежных инструментов и приложений НЛП » [5] с момента публикации получила более 2000 ссылок (согласно Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE [6], включают «Создание поисковых приложений: Lucene, LingPipe и Gate» Ману Кончади [7] и «Введение в лингвистическую аннотацию и текстовую аналитику», пользователя Graham Wilcock. [8]
Особенности [ править ]
GATE включает в себя извлечение информации системы под названием ЭНИ ( почти-Новая информация Extraction System ) , которая представляет собой набор модулей , содержащий Tokenizer , в географических названия , а приговор сплиттер , а часть речи Tagger , через названные лица преобразователь и кореферентность Таггер. ANNIE можно использовать как есть, чтобы обеспечить базовую функциональность извлечения информации или предоставить отправную точку для более конкретных задач.
В настоящее время GATE обслуживает следующие языки: английский , китайский , арабский , болгарский , французский , немецкий , хинди , итальянский , кебуанский , румынский , русский , датский .
Плагины включены для машинного обучения с Weka , RASP, MAXENT, SVM Light, а также для интеграции LIBSVM и внутренней реализации персептрона для управления онтологиями, такими как WordNet , для запросов поисковых систем, таких как Google или Yahoo , для части речевых тегов с Brill или TreeTagger и многими другими. Также доступны многие внешние плагины, например, для обработки твитов . [9]
GATE принимает ввод в различных форматах, таких как TXT , HTML , XML , Doc , PDF- документы, а также Java Serial , PostgreSQL , Lucene , Oracle Databases с помощью хранилища RDBMS через JDBC .
Преобразователи JAPE используются в GATE для управления аннотациями к тексту. Документация представлена в Руководстве пользователя GATE. [10] Учебное пособие также было написано Press Association Images. [11]
Разработчик GATE [ править ]
На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок <A> из файла HTML . Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.
ВОРОТА Мимир [ править ]
GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда сами данные являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL .
См. Также [ править ]
- Архитектура управления неструктурированной информацией (UIMA)
- OpenNLP
- Pheme , крупный проект ЕС по раннему обнаружению ложной информации в социальных сетях, управляемый группой GATE.
Ссылки [ править ]
- ^ Языки, упомянутые на http://gate.ac.uk/gate/plugins/, включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский.
- ^ «Анализ текста с открытым исходным кодом, Сет Граймс - BeyeNETWORK» . Проверено 17 декабря +2016 .
- ^ Попов, Борислав; Кирьяков, Атанас; Огнянов, Дамян; Манов, Димитар; Кирилов, Ангел (1 сентября 2004 г.). «KIM - семантическая платформа для извлечения и поиска информации» . Инженерия естественного языка . 10 (3–4): 375–392. DOI : 10.1017 / S135132490400347X . Проверено 17 декабря 2016 г. - через Cambridge Core.
- ^ "ВОРОТА" . Проверено 17 декабря +2016 .
- ^ «GATE: структура и графическая среда разработки для надежных инструментов и приложений НЛП» , авторы Каннингем Х., Мейнард Д. , Бончева К. и Таблан В. (В материалах 40-й юбилейной встречи Ассоциации компьютерной лингвистики, 2002)
- ^ "GATE.ac.uk - продажа / tao / split.html" . Проверено 17 декабря +2016 .
- ^ Konchady, Мана. Создание приложений для поиска: Lucene, LingPipe и Gate . Издательство Мустру. 2008 г.
- ^ Уилкок, Graham (1 январь 2009). Введение в лингвистическую аннотацию и текстовую аналитику . Издатели Morgan & Claypool. ISBN 9781598297386. Проверено 17 декабря 2016 г. - через Google Книги.
- ^ "GATE.ac.uk - wiki / twitie.html" . Проверено 17 декабря +2016 .
- ^ "GATE.ac.uk - продажа / tao / splitch8.html" . Проверено 17 декабря +2016 .
- ^ Thakker, Dhavalkumar (17 июля 2009). «Реализация семантической паутины: учебник по грамматике JAPE» . Проверено 17 декабря +2016 .
Внешние ссылки [ править ]
- Официальный веб-сайт