Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Американский национальный корпус (АНК) является текст корпус из американского варианта английского языка , содержащий 22 миллионов слов письменных и говорят данные , полученные с 1990 года В настоящее время АНК включает в себя ряд жанров, включая новые жанры , такие как электронная почта, чириканье, и веб - данных, не включены в более ранние корпуса, такие как Британский национальный корпус . Он снабжен примечаниями для части речи и леммы , поверхностного анализа и именованных объектов .

ANC доступен в Консорциуме лингвистических данных . Подмножество корпуса из пятнадцати миллионов слов, называемое Открытым американским национальным корпусом (OANC), свободно доступно без ограничений на его использование на веб-сайте ANC.

Корпус и его аннотации предоставляются в соответствии со спецификациями Linguistic Annotation Framework ISO / TC 37 SC4. При использовании свободно предоставленный инструмента трансдукции (ANC2Go), то корпус и пользователя подобранных аннотации предоставляются в нескольких форматах, включая формат CoNLL IOB, в формате XML , согласующийся в XML Corpus Encoding Standard (XCES) (пригодный для использования с Британским национальным Corpus " s поисковая система XAIRA), формат, совместимый с UIMA , и форматы, подходящие для ввода в широкий спектр программ согласования. Также доступны плагины для импорта аннотаций в General Architecture for Text Engineering (GATE).

ANC отличается от других корпусов английского языка тем, что он богат аннотациями, включая различные части речевых аннотаций (теги Penn, теги CLAWS5 и CLAWS7), аннотации мелкого синтаксического анализа и аннотации для нескольких типов именованных сущностей . Дополнительные аннотации добавляются ко всему корпусу или его частям по мере их появления, часто за счет участия других проектов. В отличие от корпусов с возможностью поиска в Интернете, которые из-за ограничений авторского права разрешают доступ только к отдельным предложениям, весь ANC доступен для проведения исследований, включающих, например, разработку статистических языковых моделей и полнотекстовые лингвистические аннотации.

Аннотации ANC создаются автоматически и не проверяются. Подмножество из 500 000 слов, называемое вручную аннотированным субкорпусом (MASC) , аннотировано примерно для 20 различных видов лингвистических аннотаций, все из которых были проверены вручную или созданы вручную. К ним , среди прочего, относятся синтаксические аннотации Penn Treebank , смысловые аннотации WordNet , семантические аннотации кадров FrameNet . Как и OANC, MASC свободно доступен для любого использования и может быть загружен с сайта ANC или из Консорциума лингвистических данных . Он также распространяется в форме тегов частей речи с помощью Natural Language Toolkit .

ANC и его субкорпорации отличаются от аналогичных корпусов прежде всего набором лингвистических аннотаций и включением современных жанров, которые не появляются в ресурсах, подобных Британскому национальному корпусу . Кроме того, поскольку первоначальным целевым использованием корпусов была разработка статистических языковых моделей, доступны полные данные и все аннотации, что отличается от Корпуса современного американского английского (COCA), который доступен только выборочно через веб-браузер.

Продолжающийся рост OANC и MASC опирается на данные и аннотации сообществ компьютерной лингвистики и корпусной лингвистики.

См. Также [ править ]

Ссылки [ править ]

Труды 48-го ежегодного собрания Ассоциации компьютерной лингвистики, Упсала, Швеция.

Внешние ссылки [ править ]