Американский национальный корпус

Американский национальный корпус (АНК) является текст корпус из американского варианта английского языка , содержащий 22 миллионов слов письменных и говорят данные , полученные с 1990 года В настоящее время АНК включает в себя ряд жанров, включая новые жанры , такие как электронная почта, чириканье, и веб - данных, не включены в более ранние корпуса, такие как Британский национальный корпус . Он снабжен примечаниями для части речи и леммы , поверхностного анализа и именованных объектов .

ANC доступен в Консорциуме лингвистических данных . Подмножество корпуса из пятнадцати миллионов слов, называемое Открытым американским национальным корпусом (OANC), свободно доступно без ограничений на его использование на веб-сайте ANC.

Корпус и его аннотации предоставляются в соответствии со спецификациями Linguistic Annotation Framework ISO / TC 37 SC4. При использовании свободно предоставленный инструмента трансдукции (ANC2Go), то корпус и пользователя подобранных аннотации предоставляются в нескольких форматах, включая формат CoNLL IOB, в формате XML , согласующийся в XML Corpus Encoding Standard (XCES) (пригодный для использования с Британским национальным Corpus " s поисковая система XAIRA), формат, совместимый с UIMA , и форматы, подходящие для ввода в широкий спектр программ согласования. Также доступны плагины для импорта аннотаций в General Architecture for Text Engineering (GATE).

ANC отличается от других корпусов английского языка тем, что он богат аннотациями, включая различные части речевых аннотаций (теги Penn, теги CLAWS5 и CLAWS7), аннотации мелкого синтаксического анализа и аннотации для нескольких типов именованных сущностей . Дополнительные аннотации добавляются ко всему корпусу или его частям по мере их появления, часто за счет участия других проектов. В отличие от корпусов с возможностью поиска в Интернете, которые из-за ограничений авторского права разрешают доступ только к отдельным предложениям, весь ANC доступен для проведения исследований, включающих, например, разработку статистических языковых моделей и полнотекстовые лингвистические аннотации.

Аннотации ANC создаются автоматически и не проверяются. Подмножество из 500 000 слов, называемое вручную аннотированным субкорпусом (MASC) , аннотировано примерно для 20 различных видов лингвистических аннотаций, все из которых были проверены вручную или созданы вручную. К ним , среди прочего, относятся синтаксические аннотации Penn Treebank , смысловые аннотации WordNet , семантические аннотации кадров FrameNet . Как и OANC, MASC свободно доступен для любого использования и может быть загружен с сайта ANC или из Консорциума лингвистических данных . Он также распространяется в форме тегов частей речи с помощью Natural Language Toolkit .

ANC и его субкорпорации отличаются от аналогичных корпусов прежде всего набором лингвистических аннотаций и включением современных жанров, которые не появляются в ресурсах, подобных Британскому национальному корпусу . Кроме того, поскольку первоначальным целевым использованием корпусов была разработка статистических языковых моделей, доступны полные данные и все аннотации, что отличается от Корпуса современного американского английского (COCA), который доступен только выборочно через веб-браузер.

Продолжающийся рост OANC и MASC опирается на данные и аннотации сообществ компьютерной лингвистики и корпусной лингвистики.

См. Также [ править ]

Ссылки [ править ]

Иде, Н. (2008). Американский национальный корпус: тогда, сейчас и завтра . В книге Майкла Хо, Кейт Берридж, Джин Малдер и Пэм Петерс (ред.), Избранные материалы семинара HCSNet 2008 года по разработке австралийского национального корпуса: сбор языков, проект Cascadilla Proceedings, Соммервилл, Массачусетс.
Иде, Н., Судерман, К. (2004). Первый выпуск Американского национального корпуса . Труды Четвертой конференции по языковым ресурсам и оценке (LREC), Лиссабон, 1681-84.
Иде, Н., Бейкер, К., Феллбаум, К., Пассонно, Р. (2010). Аннотированный вручную субкорпус: ресурс сообщества для людей и для людей

Труды 48-го ежегодного собрания Ассоциации компьютерной лингвистики, Упсала, Швеция.

vтеКорпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC - национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine