Аннотированный вручную подкорпус


Аннотированный вручную подкорпус (MASC) представляет собой сбалансированное подмножество из 500 тысяч слов письменных текстов и расшифрованной речи, взятых в основном из Открытого американского национального корпуса (OANC). OANC представляет собой корпус американского английского из 15 миллионов слов (и он постоянно растет), созданный с 1990 года, и все они находятся в общественном достоянии или иным образом свободны от ограничений на использование и распространение.

Все MASC включают проверенные вручную аннотации для логической структуры (заголовки, разделы, абзацы и т. д.), границы предложений, три различных токенизации с соответствующими тегами частей речи, неглубокий разбор (фрагменты существительных и глаголов), именованные объекты (человек, местоположение, организация, дата и время) и синтаксис Penn Treebank . В рамках проекта MASC были созданы дополнительные вручную или проверенные аннотации для частей подкорпуса, включая полнотекстовые аннотации для элементов фрейма FrameNet и корпус предложений из более чем 100 тыс. Фреймнетэлементы каркаса. Аннотации всего или части подкорпуса для широкого круга других лингвистических явлений были предоставлены другими проектами, включая PropBank , TimeBank , мнение MPQA и некоторые другие. Аннотации совместных ссылок и границы разделов всего корпуса MASC планируется выпустить к концу 2016 года.

Смысловые аннотации WordNet для всех вхождений 114 слов также включены в дистрибутив MASC, как и аннотации FrameNet для 50–100 вхождений каждого из 114 слов. Предложения с аннотациями WordNet и FrameNet также распространяются как часть корпуса предложений MASC .

В отличие от большинства свободно доступных корпусов, включающих широкий спектр лингвистических аннотаций, MASC содержит сбалансированный набор текстов из широкого спектра жанров:

В настоящее время MASC включает семнадцать различных типов лингвистических аннотаций (* = в производстве; ** в настоящее время доступно только в исходном формате):

Все аннотации MASC, предоставленные или созданные собственными силами, преобразуются в формат графических аннотаций (GrAF), определенный структурой лингвистических аннотаций ISO TC37 SC4 (LAF). Онлайн-инструмент ANC2Go может преобразовывать аннотации по всему MASC или его частям в любой из нескольких других форматов, включая формат CONLL IOB и форматы для использования в UIMA и General Architecture for Text Engineering .