Использование внешних ссылок в этой статье может не соответствовать политикам или рекомендациям Википедии . ( Ноябрь 2017 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
В лингвистике , Treebank является разобранный текст корпус , который помечает синтаксической или семантической приговор структуры. Создание анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1] Использование данных банка деревьев имеет важное значение с момента появления первого крупномасштабного банка деревьев Penn Treebank., был опубликован. Однако, несмотря на то, что они зародились в компьютерной лингвистике, ценность береговых деревьев становится все более широко признанной в лингвистических исследованиях в целом. Например, аннотированные данные банка деревьев сыграли решающую роль в синтаксических исследованиях, чтобы проверить лингвистические теории структуры предложений на большом количестве встречающихся в природе примеров.
Этимология [ править ]
Термин « древовидный банк» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что и синтаксическая, и семантическая структура обычно композиционно представлены в виде древовидной структуры . Термин « проанализированный корпус» часто используется как синоним термина «древовидный банк», с акцентом на примат предложений, а не деревьев.
Строительство [ править ]
Древовидные группы часто создаются поверх корпуса, который уже был помечен тегами части речи . В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка - это трудоемкий проект, на который команды дипломированных лингвистов могут уйти несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка дерева.
Некоторые группы деревьев следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее конкретными в теории. Тем не менее, можно выделить две основные группы: банки деревьев, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB ), и те, которые аннотируют структуру зависимостей (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank ).
Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ для Джон любит Мэри , показанный на рисунке справа, может быть представлен в текстовом файле простыми помеченными скобками, как это (после нотации Penn Treebank ):
(S (НП (НП Джон)) (ВП (любит ВПЗ) (НП (ННП Марии))) (..))
Этот тип представления популярен, потому что он не требует больших ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают специфичные для дерева схемы XML , пронумерованные отступы и различные типы обозначений противостояния.
Приложения [ править ]
С точки зрения вычислительной лингвистики [3] , древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. [4]Большинство вычислительных систем используют данные золотого стандарта дерева деревьев. Тем не менее, автоматически анализируемый корпус, который не исправляется лингвистами-людьми, все еще может быть полезен. Он может предоставить свидетельство частоты правил для анализатора. Синтаксический анализатор можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.
В лингвистике корпусов древовидные группы используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько часто используются различные грамматические структуры. Берега деревьев также служат доказательством охвата и поддерживают открытие новых, неожиданных грамматических явлений.
Еще одно применение «берегов дерева» в теоретической лингвистике и психолингвистике - это свидетельства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты, выясняя, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение о формировании других, и попытаться понять, как говорящие и писатели принимают решения, составляя предложения. Исследование взаимодействия особенно плодотворно, так как в корпус добавляются дополнительные уровни аннотации, например семантическая, прагматическая. Затем можно оценить влияние несинтаксических явлений на выбор грамматики.
Семантические деревья [ править ]
Банк семантического дерева - это набор предложений на естественном языке, помеченных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank , разработанный в Университете Гронингена и аннотированный с использованием теории представления дискурса . Примером неглубокого семантического банка дерева является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .
Язык | Treebank | Семантический формализм | Распространение / Лицензия |
---|---|---|---|
Китайский | Китайские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
английский | Банк представления абстрактного смысла (AMR) | Глубокая семантика | ? |
английский | FrameNet | Мелкая семантика | ? |
английский | Универсальная концептуальная когнитивная аннотация (UCCA) | Глубокая семантика | ? |
английский | Дерево команд роботов [5] | Глубокая семантика | ? |
английский | Groningen Meaning Bank | Глубокая семантика | ? |
английский | Проект DeepBank | Глубокая семантика | ? |
английский | Анализируемый корпус семантики Treebank | Глубокая семантика | ? |
английский | RoboCup Corpus | Глубокая семантика | ? |
английский | Геозапросы | Глубокая семантика | ? |
английский | PropBank | Семантика PropBank | разные лицензии |
Финский | Финские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Финский | Финский PropBank | Семантика PropBank | CC BY-SA 4.0 |
Французский | Французские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Немецкий | Немецкие универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Итальянский | Итальянские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
португальский | Португальский PortLex | Семантика PropBank | ? |
португальский | Португальские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
испанский | Испанские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
турецкий | Турецкий PropBank | Семантика PropBank | CC BY-NC-SA 4.0 |
Деревья глубокого синтаксиса [ править ]
Глубокий синтаксический банк дерева - это банк дерева, лежащий на стыке синтаксиса и семантики, где структура представления может быть интерпретирована как граф, представляющий предмет бесконечных фраз, извлечения, конструкции it-clef, многоточия общего предмета и так далее. (расширить)
- Зависимости AnCora UPF
- Проект Deep Sequoia
Синтаксические банки деревьев [ править ]
Многие синтаксические банки деревьев были разработаны для самых разных языков:
Язык | Treebank | Синтаксический формализм | Распространение / Лицензия |
---|---|---|---|
Абаза | Универсальные зависимости , ATB | Зависимость | CC BY-SA |
африкаанс | Универсальные зависимости , AfriBooms | Зависимость | CC BY-SA |
Аккадский | Универсальные зависимости , PISANDUB | Зависимость | CC BY-SA |
албанский | Универсальные зависимости , TSA | Зависимость | CC BY-SA |
Амхарский | Универсальные зависимости , ATT | Зависимость | CC BY-SA |
Древнегреческий | Универсальные зависимости , Персей | Зависимость | CC BY-NC-SA |
Древнегреческий | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Греческий (древний) | Древнегреческий банк деревьев зависимости [6] [7] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Греческий (древний) | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
арабский | Columbia Arabic Treebank (CATiB) | Зависимость | Консорциум лингвистических данных |
арабский | Пражский арабский филиал Treebank (PADT) | Зависимость | Консорциум лингвистических данных |
арабский | Универсальные зависимости , NYUAD | Зависимость | CC BY-SA |
арабский | Универсальные зависимости , PADT | Зависимость | CC BY-NC-SA |
арабский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
арабский | Penn Arabic Treebank | Структура фразы | Консорциум лингвистических данных |
Армянский | Универсальные зависимости , ArmTDP | Зависимость | CC BY-SA |
Ассирийский (неоарамейский) | Универсальные зависимости , AS | Зависимость | CC BY-SA |
Бамбара | Универсальные зависимости , CRB | Зависимость | CC BY-SA |
Баскский | Универсальные зависимости , BDT | Зависимость | CC BY-NC-SA |
Белорусский | Универсальные зависимости , HSE | Зависимость | CC BY-SA |
Бходжпури | Универсальные зависимости , BhEn | Зависимость | CC BY-SA |
Бходжпури | Универсальные зависимости , BHTB | Зависимость | CC BY-SA |
Бретонский | Универсальные зависимости , KEB | Зависимость | CC BY-SA |
болгарский | Универсальные зависимости , BTB | Зависимость | CC BY-NC-SA |
болгарский | BulTreeBank | HPSG | Свободно доступен для исследования |
Бурятский | Универсальные зависимости , BDT | Зависимость | CC BY-SA |
Кантонский | Универсальные зависимости , HK | Зависимость | CC BY-SA |
Каталонский | Cat3LB | Структура фразы | Свободно доступен для исследования |
Каталонский | Универсальные зависимости , AnCora | Зависимость | GPL |
Китайский | Sinica Treebank | Грамматика падежа | Не в свободном доступе |
Китайский | Универсальные зависимости , CFL | Зависимость | CC BY-SA |
Китайский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Китайский | Универсальные зависимости , GSDSimp | Зависимость | CC BY-SA |
Китайский | Универсальные зависимости , HK | Зависимость | CC BY-SA |
Китайский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Китайский | Penn Chinese Treebank | Структура фразы | Консорциум лингвистических данных |
Китайский | Китайский банк деревьев зависимости | Зависимость | Консорциум лингвистических данных |
Арабский (классический) | Quranic Arabic Dependency Treebank (QADT) ( Корпус Коранического арабского языка ) | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Классический армянский | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Коптский | Универсальные зависимости , коптский скрипторий | Зависимость | CC BY |
хорватский | Хорватский банк зависимых деревьев | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
хорватский | Универсальные зависимости , SET | Зависимость | CC BY-SA |
Чешский | Пражский филиал Treebank | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Чешский | Универсальные зависимости , CAC | Зависимость | CC BY-SA |
Чешский | Универсальные зависимости , CLTT | Зависимость | CC BY-SA |
Чешский | Универсальные зависимости , FicTree | Зависимость | CC BY-NC-SA |
Чешский | Универсальные зависимости , PDT | Зависимость | CC BY-NC-SA |
Чешский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Датский | Датский Dependency Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Датский | Arboretum: синтаксический древовидный корпус датского языка. | Структура фразы | Плата за лицензию |
Датский | Универсальные зависимости , ДДТ | Зависимость | CC BY-SA |
Датский | Универсальные зависимости , DTB | Зависимость | CC BY-SA |
нидерландский язык | Разговорный голландский корпус (CGN) | Структура фразы | Плата за лицензию |
нидерландский язык | Универсальные зависимости , Альпино | Зависимость | CC BY-SA |
нидерландский язык | Универсальные зависимости , LassySmall | Зависимость | CC BY-SA |
нидерландский язык | LASSY маленький и большой | Зависимость | Плата за лицензию |
нидерландский язык | Альпино Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
английский | CCGbank | Комбинаторно-категориальная грамматика | Консорциум лингвистических данных |
английский | LinGO Redwoods | HPSG | ? |
английский | Lancaster Parsed Corpus | Структура фразы | ? |
английский | Пражский английский Dependency Treebank | Зависимость | Консорциум лингвистических данных |
английский | Универсальные зависимости , BhEn | Зависимость | CC BY-SA |
английский | Универсальные зависимости , ESL | Зависимость | CC BY-SA |
английский | Универсальные зависимости , EWT | Зависимость | CC BY-SA |
английский | Универсальные зависимости , ГУМ | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , GUMReddit | Зависимость | CC BY |
английский | Универсальные зависимости , LinES | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , местоимения | Зависимость | CC BY-SA |
английский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
английский | Анализируемый корпус семантики Treebank | Структура фразы | Открытый исходный код ( лицензия Creative Commons ) |
английский | Кристин Корпус | Структура фразы | Свободно доступен для исследования |
английский | Люси Корпус | Структура фразы | Свободно доступен для исследования |
английский | Сюзанна Корпус | Структура фразы | Свободно доступен для исследования |
английский | BLLIP WSJ корпус | Структура фразы | Консорциум лингвистических данных |
английский | Tübingen Treebank of English / Spontaneous Speech (TüBa-E / S) | HPSG | Свободно доступен для исследования |
английский | Диахронический корпус современного разговорного английского языка (DCPSE) | Структура фразы | Плата за лицензию |
английский | Британский компонент Международного корпуса английского языка (ICE-GB) | Структура фразы | Плата за лицензию |
английский | Зависимый банк PARC 700 | Зависимость | ? |
английский | Yahoo Query Treebank | Зависимость | Свободно доступен для исследования |
английский | Penn Treebank | Структура фразы | Консорциум лингвистических данных |
английский | Multi-Treebank | Структура фразы | Доступно в Интернете для сравнения |
английский | ДЕТИ Корпус Brown Eve с аннотацией зависимостей | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
английский | SMULTRON - Параллельный банк деревьев EN-DE-SV | Структура фразы | Свободно доступен для исследования |
Эрзя | Универсальные зависимости , JR | Зависимость | CC BY-SA |
эстонский | Дендрарий | Структура фразы | ? |
эстонский | Синтаксически проанализированный и устраненный неоднозначный текстовый корпус | Зависимость | Свободно доступен для исследования |
эстонский | Универсальные зависимости , EDT | Зависимость | CC BY-NC-SA |
эстонский | Универсальные зависимости , EWT | Зависимость | CC BY-NC-SA |
Фарерские острова | Универсальные зависимости , FarPaHC | Зависимость | CC BY-SA |
Фарерские острова | Универсальные зависимости , OFT | Зависимость | CC BY-SA |
Финский | Банк зависимых деревьев Турку (TDT) | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Финский | Универсальные зависимости , FTB | Зависимость | CC BY |
Финский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Финский | Универсальные зависимости , TDT | Зависимость | CC BY-SA |
Французский (разговорный) | Рапсодия | Зависимость и макросинтаксическая аннотация | Открытый исходный код ( лицензия Creative Commons ) |
Французский | L'Arboratoire | Структура фразы | ? |
Французский | Универсальные зависимости , CrapBank | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , FQB | Зависимость | GPL |
Французский | Универсальные зависимости , FTB | Зависимость | GPL |
Французский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
Французский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , Секвойя | Зависимость | GPL |
Французский | Универсальные зависимости , разговорный | Зависимость | CC BY-SA |
Французский | Париж 7 | Структура фразы | Свободно доступен для исследования |
Французский | Free French Treebank | Структура фразы | Лицензия с открытым исходным кодом LGPL-LR |
Французский | Секвойя Treebank | Структура фразы и зависимость | Лицензия с открытым исходным кодом LGPL-LR |
Галицкий | Универсальные зависимости , CTG | Зависимость | CC BY-NC-SA |
Галицкий | Универсальные зависимости , TreeGal | Зависимость | GPL |
Немецкий | Hamburg Dependency Treebank (HDT) | Зависимость | Свободно доступен для исследования |
Немецкий | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Немецкий | Универсальные зависимости , LIT | Зависимость | CC BY-NC-SA |
Немецкий | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Немецкий | SMULTRON - Параллельный банк деревьев EN-DE-SV | Структура фразы | Свободно доступен для исследования |
Немецкий | НЕГРА | Структура фразы | Свободно доступен для исследования |
Немецкий | ТИГР | Структура фразы | Свободно доступен для исследования |
Немецкий | Tübingen Treebank of German / Spontaneous Speech (TüBa-D / S) | Структура фразы | Свободно доступен для исследования |
Немецкий | Tübingen Treebank письменного немецкого языка (TüBa-D / Z) | Структура фразы | Свободно доступен для исследования |
Немецкий | Тюбингенский частично разобранный корпус письменного немецкого языка (TüPP-D / Z) | Структура фразы | Плата за лицензию |
Готика | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Готика | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Греческий | Банк деревьев зависимости от Греции | Зависимость | Не в свободном доступе |
Греческий | Универсальные зависимости , GDT | Зависимость | CC BY-NC-SA |
иврит | Универсальные зависимости , HTB | Зависимость | CC BY-NC-SA |
иврит | Древовидный банк зависимостей иврита | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Хинди английский | Универсальные зависимости , HIENCS | Зависимость | CC BY-SA |
хинди | Универсальные зависимости , HDTB | Зависимость | CC BY-NC-SA |
хинди | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
хинди | AnnCorra | Зависимость | ? |
Английский (исторический) | Пенн Разбор корпусов исторического английского языка ; | Структура фразы | Консорциум лингвистических данных (по состоянию на апрель 2020 г.) |
Английский (исторический) | Йорк-Торонто-Хельсинки Разбираемый корпус староанглийской прозы (YCOE) | Структура фразы | Свободно доступен для исследования |
Французский (исторический) | Корпус MCVF | Структура фразы | Свободно доступен для исследования |
Португальский (исторический) | Тихо Браге корпус | Структура фразы | ? |
Венгерский | Универсальные зависимости , Сегед | Зависимость | CC BY-NC-SA |
Венгерский | Венгерский Treebank | Структура фразы | ? |
исландский | IcePaHC - исландский анализируемый исторический корпус | Структура фразы | Открытый исходный код ( Стандартная общественная лицензия ограниченного применения GNU ) |
исландский | Универсальные зависимости , IcePaHC | Зависимость | CC BY-SA |
исландский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
индонезийский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
индонезийский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Ирландский | Универсальные зависимости , IDT | Зависимость | CC BY-SA |
Итальянский | ISST - итальянский банк синтаксически-семантических деревьев | Структура фразы и зависимость | Плата за лицензию |
Итальянский | MIDT (Объединенный банк деревьев итальянских зависимостей), полученный в результате слияния и согласования банков деревьев TUT и ISST-CoNLL / TANL | зависимость | Свободно доступен для исследования |
Итальянский | VIT - Venice Italian Treebank | Структура фразы и зависимость | Плата за лицензию |
Итальянский | Универсальные зависимости , ISDT | Зависимость | CC BY-NC-SA |
Итальянский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
Итальянский | Универсальные зависимости , PoSTWITA | Зависимость | CC BY-NC-SA |
Итальянский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Итальянский | Универсальные зависимости , TWITTIRO | Зависимость | CC BY-SA |
Итальянский | Универсальные зависимости , VIT | Зависимость | CC BY-NC-SA |
Итальянский | Итальянский синтаксико-семантический банк деревьев для общей задачи CoNLL-2007 (ISST-CoNLL) | зависимость | Свободно доступен для исследования |
Итальянский | SUT - Siena University Treebank | ? | ? |
Итальянский | TUT - Treebank Туринского университета | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Итальянский | ISDT (итальянский Stanford Dependency Treebank) | зависимость | Свободно доступен для исследования |
Японский | Киотский текстовый корпус | ? | ? |
Японский | Универсальные зависимости , BCCWJ | Зависимость | CC BY-NC-SA |
Японский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Японский | Универсальные зависимости , KTC | Зависимость | CC BY-SA |
Японский | Универсальные зависимости , современные | Зависимость | CC BY-NC-ND |
Японский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Японский | Keyaki Treebank | Структура фразы | Открытый исходный код ( лицензия Creative Commons ) |
Японский | Tübingen Treebank of Japanese / Spontaneous Speech (TüBa-J / S) | Структура фразы | Свободно доступен для исследования |
Японский | Корпус зависимостей ATR | Зависимость | ? |
Карельский | Универсальные зависимости , ККПП | Зависимость | CC BY-SA |
Казахский | Универсальные зависимости , KTB | Зависимость | CC BY-SA |
Коми Пермяк | Универсальные зависимости , UH | Зависимость | CC BY-SA |
Коми Зырян | Универсальные зависимости , IKDP | Зависимость | CC BY-SA |
Коми Зырян | Универсальные зависимости , Решетка | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , Kaist | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , Penn | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , Седжонг | Зависимость | CC BY-SA |
Корейский | Корейский Treebank | Структура фразы | Консорциум лингвистических данных |
Курманджи | Универсальные зависимости , MG | Зависимость | CC BY-SA |
латинский | Универсальные зависимости , ITTB | Зависимость | CC BY-NC-SA |
латинский | Универсальные зависимости , LLCT | Зависимость | CC BY-SA |
латинский | Универсальные зависимости , Персей | Зависимость | CC BY-NC-SA |
латинский | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
латинский | Индекс Thomisticus Treebank | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латинский | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латинский | Банк дерева латинских зависимостей [9] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Латышский | Универсальные зависимости , LVTB | Зависимость | CC BY-SA |
Литовский | Универсальные зависимости , ALKSNIS | Зависимость | CC BY-SA |
Литовский | Универсальные зависимости , HSE | Зависимость | CC BY-SA |
Ливви | Универсальные зависимости , ККПП | Зависимость | CC BY-SA |
Магахи | Универсальные зависимости , MGTB | Зависимость | CC BY-SA |
Мальтийский | Универсальные зависимости , MUDT | Зависимость | CC BY-SA |
Маратхи | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
Мбья гуарани | Универсальные зависимости , Дули | Зависимость | CC BY-NC-SA |
Мбья гуарани | Универсальные зависимости , Томас | Зависимость | CC BY-NC-SA |
Средний ирландский | Универсальные зависимости , CritMITB | Зависимость | CC BY-SA |
Средний ирландский | Универсальные зависимости , DipMITB | Зависимость | CC BY-SA |
Мокша | Универсальные зависимости , JR | Зависимость | CC BY-SA |
Найя | Универсальные зависимости , NSC | Зависимость | CC BY-SA |
Северный саамский | Универсальные зависимости , Giella | Зависимость | CC BY-SA |
норвежский язык | Инфраструктура банка деревьев INESS | LFG | ? |
норвежский язык | Универсальные зависимости , Bokmaal | Зависимость | CC BY-SA |
норвежский язык | Универсальные зависимости , нюнорск | Зависимость | CC BY-SA |
норвежский язык | Универсальные зависимости , NynorskLIA | Зависимость | CC BY-SA |
Старославянский | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Старославянский | TOROT Treebank [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Старофранцузский | Универсальные зависимости , SRCMF | Зависимость | CC BY-NC-SA |
Древнерусский | Универсальные зависимости , RNC | Зависимость | CC BY-SA |
Древнерусский | Универсальные зависимости , TOROT | Зависимость | CC BY-NC-SA |
Древнерусский | TOROT Treebank [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Персидский | Банк деревьев персидской зависимости (PerDT) | Зависимость | Свободно доступен для исследования |
Персидский | PerTreeBank | HPSG | Свободно доступен для исследования |
Персидский | Универсальные зависимости , Сераджи | Зависимость | CC BY-SA |
Польский | Treebank / Test Suite для польского языка | HPSG | ? |
Польский | Универсальные зависимости , LFG | Зависимость | GPL |
Польский | Универсальные зависимости , PDB | Зависимость | CC BY-NC-SA |
Польский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Польский | Складница | Структура фразы и зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
португальский | Универсальные зависимости , Bosque | Зависимость | CC BY-SA |
португальский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
португальский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
португальский | Projecto Floresta Sintá (c) tica | Зависимость , структура фразы | Открытый исходный код ( общедоступная лицензия GNU ) |
румынский | Румынский Dependency Treebank | Зависимость | ? |
румынский | Универсальные зависимости , нестандартные | Зависимость | CC BY-SA |
румынский | Универсальные зависимости , RRT | Зависимость | CC BY-SA |
румынский | Универсальные зависимости , SiMoNERo | Зависимость | CC BY-SA |
русский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
русский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
русский | Универсальные зависимости , SynTagRus | Зависимость | CC BY-NC-SA |
русский | Универсальные зависимости , Тайга | Зависимость | CC BY-SA |
русский | SynTagRus Dependency Treebank ( Русский национальный корпус ) | Зависимость | Свободно доступен для исследования |
санскрит | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
санскрит | Универсальные зависимости , Ведический | Зависимость | CC BY-SA |
Шотландский гэльский | Универсальные зависимости , ARCOSG | Зависимость | CC BY-SA |
сербский | Универсальные зависимости , SET | Зависимость | CC BY-SA |
Синдхи | Универсальные зависимости , MazharDootio | Зависимость | CC BY-SA |
Скольт-саамский | Универсальные зависимости , Giellagas | Зависимость | CC BY-SA |
словацкий | Универсальные зависимости , SNK | Зависимость | CC BY-SA |
Словенский | Словенский Dependency Treebank | Зависимость | Свободно доступен для исследования |
словенский | Универсальные зависимости , SSJ | Зависимость | CC BY-NC-SA |
словенский | Универсальные зависимости , SST | Зависимость | CC BY-NC-SA |
испанский | Cast3LB | Структура фразы и зависимость | Свободно доступен для исследования |
испанский | Универсальные зависимости , AnCora | Зависимость | GPL |
испанский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
испанский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
испанский | UAM Treebank испанского языка | Структура фразы | Свободно доступен для исследования |
Шведский | Talbanken05 | Структура фразы и зависимость | Свободно доступен для исследования |
Шведский | Шведский Treebank | Структура фразы | Свободно доступен для исследования |
Шведский | Универсальные зависимости , LinES | Зависимость | CC BY-NC-SA |
Шведский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Шведский | Универсальные зависимости , Talbanken | Зависимость | CC BY-SA |
Шведский | SMULTRON - Параллельный банк деревьев EN-DE-SV | Структура фразы | Свободно доступен для исследования |
Шведский язык жестов | Универсальные зависимости , SSLC | Зависимость | CC BY-SA |
Швейцарский немецкий | Универсальные зависимости , UZH | Зависимость | CC BY-SA |
Тагальский | Универсальные зависимости , TRG | Зависимость | CC BY-SA |
Тагальский | Универсальные зависимости , Угнаян | Зависимость | CC BY-NC-SA |
Тамильский | Универсальные зависимости , TTB | Зависимость | CC BY-NC-SA |
телугу | Универсальные зависимости , MTG | Зависимость | CC BY-SA |
Тайский | NAiST Thai Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Тайский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
турецкий | METU-Sabanci Turkish Treebank | Зависимость | Свободно доступен для исследования |
турецкий | Универсальные зависимости , BOUN | Зависимость | CC BY-SA |
турецкий | Универсальные зависимости , ГБ | Зависимость | CC BY-SA |
турецкий | Универсальные зависимости , IMST | Зависимость | CC BY-NC-SA |
турецкий | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
украинец | Институт украинского языка, НПО Золотой стандарт | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
украинец | Универсальные зависимости , МЕ | Зависимость | CC BY-NC-SA |
Верхнесорбский | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
Урду | NU-FAST Treebank | Структура фразы | Контакты в компании Computational Learning Strategies & Practices |
Урду | Банк деревьев URDU.KON-TB | Структура фраз и гиперзависимостей | Контакты в компании Computational Learning Strategies & Practices |
Урду | Универсальные зависимости , UDTB | Зависимость | CC BY-NC-SA |
Уйгурский | Универсальные зависимости , UDT | Зависимость | CC BY-SA |
вьетнамский | Универсальные зависимости , ВТБ | Зависимость | CC BY-SA |
вьетнамский | Вьетнамский Treebank | Структура фразы | Свободно доступен для исследования |
вьетнамский | Вьетнамский банк зависимых деревьев | Зависимость | Свободно доступен для исследования |
Варлпири | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
валлийский | Универсальные зависимости , CCG | Зависимость | CC BY-SA |
Волоф | Универсальные зависимости , WTB | Зависимость | CC BY-SA |
Йоруба | Универсальные зависимости , YTB | Зависимость | CC BY-SA |
Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотаций для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества разных корпусов деревьев. Например, универсальный подход к аннотации для дерева зависимостей; [10] и универсальный подход к аннотации для древовидных структур фраз. [11]
Инструменты поиска [ править ]
Один из ключевых способов извлечения доказательств из банка деревьев - поисковые инструменты. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Сложность пользовательских интерфейсов варьируется от систем запросов на основе выражений, предназначенных для компьютерных программистов, до сред полного исследования, предназначенных для лингвистов общего профиля. Wallis (2008) подробно обсуждает принципы поиска берегов деревьев и рассматривает современное состояние. [12]
- Грамматика структуры фраз
- CorpusSearch
- fsq
- ICECUP III ; ICECUP IV
- Лингвистическая база данных (LDB)
- MonaSearch
- tgrep; tgrep2
- Tregex
- VIQTORYA
- Грамматика зависимостей
- DTAG
- Netgraph
- Санчай
- TrEd
- Грю-матч
- Грамматика зависимостей и / или грамматика структуры фраз
- ANNIS (многослойный)
- PML-TQ (многослойный)
- TigerSearch (однослойный)
- INESS-Поиск
- Другие
- GSearch
- Поисковая машина лингвиста
- Milhafre: поисковая система для португальского банка деревьев
- Татоеба
См. Также [ править ]
- Текстовый корпус
- Грамматика структуры фраз
- Грамматика зависимостей
- Парсинг
- Пометка части речи
Ссылки [ править ]
- ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Вайли.
- Перейти ↑ Sampson, G. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Франкфурт-на-Майне: Питер Ланг, стр. 157-184
- ^ Хайтао Лю, Вэй Хуанг - Синтаксис зависимости китайского языка для древовидного банка , опубликованный Коммуникационным университетом Китая , опубликованный (онлайн) Ассоциацией компьютерной лингвистики - доступ 2020-2-4
- ^ Кюблер, Сандра; Макдональд, Райан; Нивр, Иоаким (18 декабря 2008 г.). «Анализ зависимостей». Синтез лекций по технологиям человеческого языка . 2 (1): 1–127. DOI : 10.2200 / s00169ed1v01y200901hlt002 .
- ^ Kais Dukes (2013) Семантическая аннотация роботизированных пространственных команд . Конференция по языкам и технологиям (LTC). Познань, польша.
- ^ Челано, Джузеппе Г.А. 2014. Рекомендации по аннотации Древнегреческого банка деревьев зависимости 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
- ^ Мамбрини, Ф. 2016. Древнегреческий банк деревьев зависимости: лингвистическая аннотация в учебной среде. В: Бодар, Дж. И Романелло, М. (ред.) Цифровая классика вне эхо-камеры: преподавание, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. DOI : 10,5334 / bat.f
- ^ a b c d e f Даг Хауг. 2015. Treebank в историко-лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджамины, 188-202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf .
- ^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских берегов деревьев (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
- ^ McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; и другие. «Универсальная аннотация зависимостей для многоязычного синтаксического анализа». Материалы ACL 2013 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Хан, AL-F; Вонг, Д. Ф.; Чао, LS; Lu, Y .; Хе, Л. и Тиан, Л. (2014). «Универсальный набор тегов фраз для многоязычных групп деревьев» (PDF) . Материалы CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . DOI : 10.1007 / 978-3-319-12277-9_22 .
- ^ Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.