Американский национальный корпус (АНК) является текст корпус из американского варианта английского языка , содержащий 22 миллионов слов письменных и говорят данные , полученные с 1990 года В настоящее время АНК включает в себя ряд жанров, включая новые жанры , такие как электронная почта, чириканье, и веб - данных, не включены в более ранние корпуса, такие как Британский национальный корпус . Он снабжен примечаниями для части речи и леммы , поверхностного анализа и именованных объектов .
ANC доступен в Консорциуме лингвистических данных . Подмножество корпуса из пятнадцати миллионов слов, называемое Открытым американским национальным корпусом (OANC), свободно доступно без ограничений на его использование на веб-сайте ANC.
Корпус и его аннотации предоставляются в соответствии со спецификациями Linguistic Annotation Framework ISO / TC 37 SC4. При использовании свободно предоставленный инструмента трансдукции (ANC2Go), то корпус и пользователя подобранных аннотации предоставляются в нескольких форматах, включая формат CoNLL IOB, в формате XML , согласующийся в XML Corpus Encoding Standard (XCES) (пригодный для использования с Британским национальным Corpus " s поисковая система XAIRA), формат, совместимый с UIMA , и форматы, подходящие для ввода в широкий спектр программ согласования. Также доступны плагины для импорта аннотаций в General Architecture for Text Engineering (GATE).
ANC отличается от других корпусов английского языка тем, что он богат аннотациями, включая различные части речевых аннотаций (теги Penn, теги CLAWS5 и CLAWS7), аннотации мелкого синтаксического анализа и аннотации для нескольких типов именованных сущностей . Дополнительные аннотации добавляются ко всему корпусу или его частям по мере их появления, часто за счет участия других проектов. В отличие от корпусов с возможностью поиска в Интернете, которые из-за ограничений авторского права разрешают доступ только к отдельным предложениям, весь ANC доступен для проведения исследований, включающих, например, разработку статистических языковых моделей и полнотекстовые лингвистические аннотации.
Аннотации ANC создаются автоматически и не проверяются. Подмножество из 500 000 слов, называемое вручную аннотированным субкорпусом (MASC) , аннотировано примерно для 20 различных видов лингвистических аннотаций, все из которых были проверены вручную или созданы вручную. К ним , среди прочего, относятся синтаксические аннотации Penn Treebank , смысловые аннотации WordNet , семантические аннотации кадров FrameNet . Как и OANC, MASC свободно доступен для любого использования и может быть загружен с сайта ANC или из Консорциума лингвистических данных . Он также распространяется в форме тегов частей речи с помощью Natural Language Toolkit .
ANC и его субкорпорации отличаются от аналогичных корпусов прежде всего набором лингвистических аннотаций и включением современных жанров, которые не появляются в ресурсах, подобных Британскому национальному корпусу . Кроме того, поскольку первоначальным целевым использованием корпусов была разработка статистических языковых моделей, доступны полные данные и все аннотации, что отличается от Корпуса современного американского английского (COCA), который доступен только выборочно через веб-браузер.
Продолжающийся рост OANC и MASC опирается на данные и аннотации сообществ компьютерной лингвистики и корпусной лингвистики.
См. Также [ править ]
- Британский национальный корпус
- Oxford English Corpus
- Корпус современного американского английского (COCA).
Ссылки [ править ]
- Иде, Н. (2008). Американский национальный корпус: тогда, сейчас и завтра . В книге Майкла Хо, Кейт Берридж, Джин Малдер и Пэм Петерс (ред.), Избранные материалы семинара HCSNet 2008 года по разработке австралийского национального корпуса: сбор языков, проект Cascadilla Proceedings, Соммервилл, Массачусетс.
- Иде, Н., Судерман, К. (2004). Первый выпуск Американского национального корпуса . Труды Четвертой конференции по языковым ресурсам и оценке (LREC), Лиссабон, 1681-84.
- Иде, Н., Бейкер, К., Феллбаум, К., Пассонно, Р. (2010). Аннотированный вручную субкорпус: ресурс сообщества для людей и для людей
Труды 48-го ежегодного собрания Ассоциации компьютерной лингвистики, Упсала, Швеция.