В лингвистике , Treebank является разобранный текст корпус , который помечает синтаксической или семантической приговор структуры. Создание анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1] Использование данных банка деревьев имело важное значение с момента появления первого крупномасштабного банка деревьев Penn Treebank., был опубликован. Однако, несмотря на то, что они зародились в компьютерной лингвистике, ценность береговых деревьев становится все более широко признанной в лингвистических исследованиях в целом. Например, аннотированные данные банка деревьев сыграли решающую роль в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве встречающихся в природе примеров.
Этимология
Термин « древовидный банк» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что и синтаксическая, и семантическая структура обычно композиционно представлены в виде древовидной структуры . Термин « проанализированный корпус» часто используется как синоним термина «древовидный банк», с акцентом на примат предложений, а не деревьев.
Строительство
Древовидные группы часто создаются поверх корпуса, который уже был аннотирован тегами части речи . В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Банки деревьев могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка - трудоемкий проект, на который команды дипломированных лингвистов могут уйти несколько лет. Уровень детализации аннотации и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка деревьев.
Некоторые группы деревьев следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее специфичными для теории. Однако можно выделить две основные группы: банки деревьев, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB ), и те, которые аннотируют структуру зависимостей (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank ).
Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в файлах разных форматов. Например, синтаксический анализ для Джон любит Мэри , показанный на рисунке справа, может быть представлен в текстовом файле простыми помеченными скобками, как это (после обозначения Penn Treebank ):
(S (НП (НПД Джон)) (ВП (ВПЗ любит) (НП (НПП Марии))) (..))
Этот тип представления популярен, потому что он не требует больших ресурсов, а древовидная структура относительно легко читается без программных инструментов. Однако по мере того, как корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают специфичные для древовидных структур XML- схемы, пронумерованные отступы и различные типы обозначений противостояния.
Приложения
С точки зрения вычислительной лингвистики [3] , древовидные структуры использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. [4] Большинство вычислительных систем используют данные золотого стандарта дерева деревьев. Однако автоматически анализируемый корпус, который не исправляется лингвистами-людьми, все еще может быть полезен. Он может предоставить свидетельство частоты правил для парсера. Синтаксический анализатор можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.
В корпусной лингвистике древовидные группы используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько часто используются разные грамматические структуры. Берега деревьев также служат доказательством охвата и поддерживают открытие новых, неожиданных грамматических явлений.
Еще одно применение «берегов дерева» в теоретической лингвистике и психолингвистике - это доказательства взаимодействия. Заполненный древовидный банк может помочь лингвистам провести эксперименты относительно того, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение о формировании других, и попытаться понять, как говорящие и писатели принимают решения, составляя предложения. Исследование взаимодействия особенно плодотворно, поскольку в корпус добавляются дополнительные уровни аннотации, например семантическая, прагматическая. Затем можно оценить влияние несинтаксических явлений на выбор грамматики.
Семантические деревья
Банк семантического дерева - это набор предложений на естественном языке, аннотированных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank , разработанный в Университете Гронингена и аннотированный с использованием теории представления дискурса . Примером неглубокого семантического банка дерева является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .
Язык | Treebank | Семантический формализм | Распространение / Лицензия |
---|---|---|---|
китайский язык | Китайские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
английский | Банк представления абстрактного смысла (AMR) | Глубокая семантика | ? |
английский | FrameNet | Поверхностная семантика | ? |
английский | Универсальная концептуальная когнитивная аннотация (UCCA) | Глубокая семантика | ? |
английский | Дерево команд роботов [5] | Глубокая семантика | ? |
английский | Groningen Meaning Bank | Глубокая семантика | ? |
английский | Проект DeepBank | Глубокая семантика | ? |
английский | Анализируемый корпус семантики Treebank | Глубокая семантика | ? |
английский | RoboCup Corpus | Глубокая семантика | ? |
английский | Геозапросы | Глубокая семантика | ? |
английский | PropBank | Семантика PropBank | разные лицензии |
Финский | Финские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Финский | Финский PropBank | Семантика PropBank | CC BY-SA 4.0 |
Французский | Французские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Немецкий | Немецкие универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Итальянский | Итальянские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
португальский | Португальский PortLex | Семантика PropBank | ? |
португальский | Португальские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
испанский | Испанские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
турецкий | Турецкий PropBank | Семантика PropBank | CC BY-NC-SA 4.0 |
Банки деревьев глубокого синтаксиса
Глубокий синтаксический банк дерева - это банк дерева, лежащий на стыке синтаксиса и семантики, где структуру представления можно интерпретировать как граф, представляющий предмет бесконечных фраз, извлечения, конструкции it-clef, многоточия общего предмета и так далее. (расширить)
- Зависимости AnCora UPF
- Проект Deep Sequoia
Синтаксические банки деревьев
Многие синтаксические банки деревьев были разработаны для самых разных языков:
Язык | Treebank | Синтаксический формализм | Распространение / Лицензия |
---|---|---|---|
Абаза | Универсальные зависимости , ATB | Зависимость | CC BY-SA |
африкаанс | Универсальные зависимости , AfriBooms | Зависимость | CC BY-SA |
Аккадский | Универсальные зависимости , PISANDUB | Зависимость | CC BY-SA |
албанский | Универсальные зависимости , TSA | Зависимость | CC BY-SA |
Амхарский | Универсальные зависимости , ATT | Зависимость | CC BY-SA |
Древнегреческий | Универсальные зависимости , Персей | Зависимость | CC BY-NC-SA |
Древнегреческий | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Греческий (древний) | Берег древних деревьев зависимости от Греции [6] [7] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Греческий (древний) | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
арабский | Columbia Arabic Treebank (CATiB) | Зависимость | Консорциум лингвистических данных |
арабский | Пражский арабский филиал Treebank (PADT) | Зависимость | Консорциум лингвистических данных |
арабский | Универсальные зависимости , NYUAD | Зависимость | CC BY-SA |
арабский | Универсальные зависимости , PADT | Зависимость | CC BY-NC-SA |
арабский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
арабский | Penn Arabic Treebank | Структура фразы | Консорциум лингвистических данных |
Армянский | Универсальные зависимости , ArmTDP | Зависимость | CC BY-SA |
Ассирийский (неоарамейский) | Универсальные зависимости , AS | Зависимость | CC BY-SA |
Бамбара | Универсальные зависимости , CRB | Зависимость | CC BY-SA |
Баскский | Универсальные зависимости , BDT | Зависимость | CC BY-NC-SA |
Белорусский | Универсальные зависимости , HSE | Зависимость | CC BY-SA |
Бходжпури | Универсальные зависимости , BhEn | Зависимость | CC BY-SA |
Бходжпури | Универсальные зависимости , BHTB | Зависимость | CC BY-SA |
Бретонский | Универсальные зависимости , KEB | Зависимость | CC BY-SA |
болгарский | Универсальные зависимости , BTB | Зависимость | CC BY-NC-SA |
болгарский | BulTreeBank | HPSG | Свободно доступен для исследования |
Бурятский | Универсальные зависимости , BDT | Зависимость | CC BY-SA |
Кантонский | Универсальные зависимости , HK | Зависимость | CC BY-SA |
Каталонский | Cat3LB | Структура фразы | Свободно доступен для исследования |
Каталонский | Универсальные зависимости , AnCora | Зависимость | GPL |
китайский язык | Sinica Treebank | Грамматика падежа | Не в свободном доступе |
китайский язык | Универсальные зависимости , CFL | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , GSDSimp | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , HK | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
китайский язык | Penn Chinese Treebank | Структура фразы | Консорциум лингвистических данных |
китайский язык | Китайский банк деревьев зависимости | Зависимость | Консорциум лингвистических данных |
Арабский (классический) | Quranic Arabic Dependency Treebank (QADT) ( Корпус Коранического арабского языка ) | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Классический армянский | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Коптский | Универсальные зависимости , коптский скрипторий | Зависимость | CC BY |
хорватский | Хорватский банк зависимых деревьев | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
хорватский | Универсальные зависимости , SET | Зависимость | CC BY-SA |
Чешский | Пражский филиал Treebank | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Чешский | Универсальные зависимости , CAC | Зависимость | CC BY-SA |
Чешский | Универсальные зависимости , CLTT | Зависимость | CC BY-SA |
Чешский | Универсальные зависимости , FicTree | Зависимость | CC BY-NC-SA |
Чешский | Универсальные зависимости , PDT | Зависимость | CC BY-NC-SA |
Чешский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Датский | Датский Dependency Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Датский | Дендрарий: синтаксический древовидный корпус датского языка. | Структура фразы | Плата за лицензию |
Датский | Универсальные зависимости , ДДТ | Зависимость | CC BY-SA |
Датский | Универсальные зависимости , DTB | Зависимость | CC BY-SA |
нидерландский язык | Разговорный голландский корпус (CGN) | Структура фразы | Плата за лицензию |
нидерландский язык | Универсальные зависимости , Альпино | Зависимость | CC BY-SA |
нидерландский язык | Универсальные зависимости , LassySmall | Зависимость | CC BY-SA |
нидерландский язык | LASSY маленький и большой | Зависимость | Плата за лицензию |
нидерландский язык | Альпино Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
английский | CCGbank | Комбинаторно-категориальная грамматика | Консорциум лингвистических данных |
английский | LinGO Redwoods | HPSG | ? |
английский | Разобранный корпус Ланкастера | Структура фразы | ? |
английский | Пражский английский Dependency Treebank | Зависимость | Консорциум лингвистических данных |
английский | Универсальные зависимости , BhEn | Зависимость | CC BY-SA |
английский | Универсальные зависимости , ESL | Зависимость | CC BY-SA |
английский | Универсальные зависимости , EWT | Зависимость | CC BY-SA |
английский | Универсальные зависимости , ГУМ | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , GUMReddit | Зависимость | CC BY |
английский | Универсальные зависимости , LinES | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , местоимения | Зависимость | CC BY-SA |
английский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
английский | Анализируемый корпус семантики Treebank | Структура фразы | Открытый исходный код ( лицензия Creative Commons ) |
английский | Кристин Корпус | Структура фразы | Свободно доступен для исследования |
английский | Люси Корпус | Структура фразы | Свободно доступен для исследования |
английский | Сюзанна Корпус | Структура фразы | Свободно доступен для исследования |
английский | BLLIP WSJ корпус | Структура фразы | Консорциум лингвистических данных |
английский | Тюбингенский банк деревьев английского языка / спонтанной речи (TüBa-E / S) | HPSG | Свободно доступен для исследования |
английский | Диахронический корпус современного разговорного английского языка (DCPSE) | Структура фразы | Плата за лицензию |
английский | Британский компонент Международного корпуса английского языка (ICE-GB) | Структура фразы | Плата за лицензию |
английский | Зависимый банк PARC 700 | Зависимость | ? |
английский | Yahoo Query Treebank | Зависимость | Свободно доступен для исследования |
английский | Penn Treebank | Структура фразы | Консорциум лингвистических данных |
английский | Multi-Treebank | Структура фразы | Доступно в Интернете для сравнения |
английский | ДЕТИ Корпус Brown Eve с аннотацией зависимостей | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
английский | SMULTRON - Параллельный банк деревьев EN-DE-SV | Структура фразы | Свободно доступен для исследования |
Эрзя | Универсальные зависимости , JR | Зависимость | CC BY-SA |
эстонский | Дендрарий | Структура фразы | ? |
эстонский | Синтаксически проанализированный и устраненный неоднозначный текстовый корпус | Зависимость | Свободно доступен для исследования |
эстонский | Универсальные зависимости , EDT | Зависимость | CC BY-NC-SA |
эстонский | Универсальные зависимости , EWT | Зависимость | CC BY-NC-SA |
Фарерские острова | Универсальные зависимости , FarPaHC | Зависимость | CC BY-SA |
Фарерские острова | Универсальные зависимости , OFT | Зависимость | CC BY-SA |
Финский | Банк зависимых деревьев Турку (TDT) | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Финский | Универсальные зависимости , FTB | Зависимость | CC BY |
Финский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Финский | Универсальные зависимости , TDT | Зависимость | CC BY-SA |
Французский (разговорный) | Рапсодия | Зависимость и макросинтаксическая аннотация | Открытый исходный код ( лицензия Creative Commons ) |
Французский | L'Arboratoire | Структура фразы | ? |
Французский | Универсальные зависимости , CrapBank | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , FQB | Зависимость | GPL |
Французский | Универсальные зависимости , FTB | Зависимость | GPL |
Французский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
Французский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , Секвойя | Зависимость | GPL |
Французский | Универсальные зависимости , разговорный | Зависимость | CC BY-SA |
Французский | French Treebank | Структура фразы | Свободно доступен для исследования |
Французский | Free French Treebank | Структура фразы | Лицензия с открытым исходным кодом LGPL-LR |
Французский | Секвойя Treebank | Структура фразы и зависимость | Лицензия с открытым исходным кодом LGPL-LR |
Галицкий | Универсальные зависимости , CTG | Зависимость | CC BY-NC-SA |
Галицкий | Универсальные зависимости , TreeGal | Зависимость | GPL |
Немецкий | Гамбургский банк зависимых деревьев (HDT) | Зависимость | Свободно доступен для исследования |
Немецкий | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Немецкий | Универсальные зависимости , LIT | Зависимость | CC BY-NC-SA |
Немецкий | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Немецкий | SMULTRON - Параллельный банк деревьев EN-DE-SV | Структура фразы | Свободно доступен для исследования |
Немецкий | НЕГРА | Структура фразы | Свободно доступен для исследования |
Немецкий | ТИГР | Структура фразы | Свободно доступен для исследования |
Немецкий | Tübingen Treebank of German / Spontaneous Speech (TüBa-D / S) | Структура фразы | Свободно доступен для исследования |
Немецкий | Тюбингенский банк письменного немецкого языка (TüBa-D / Z) | Структура фразы | Свободно доступен для исследования |
Немецкий | Тюбингенский частично разобранный корпус письменного немецкого языка (TüPP-D / Z) | Структура фразы | Плата за лицензию |
Готика | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Готика | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Греческий | Древесный банк зависимости от Греции | Зависимость | Не в свободном доступе |
Греческий | Универсальные зависимости , GDT | Зависимость | CC BY-NC-SA |
иврит | Универсальные зависимости , HTB | Зависимость | CC BY-NC-SA |
иврит | Древовидный банк зависимостей иврита | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Хинди английский | Универсальные зависимости , HIENCS | Зависимость | CC BY-SA |
хинди | Универсальные зависимости , HDTB | Зависимость | CC BY-NC-SA |
хинди | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
хинди | AnnCorra | Зависимость | ? |
Английский (исторический) | Пенн Разобранный корпус исторического английского языка ; | Структура фразы | Консорциум лингвистических данных (по состоянию на апрель 2020 г.) |
Английский (исторический) | Йорк-Торонто-Хельсинки Синтаксический анализ древнеанглийской прозы (YCOE) | Структура фразы | Свободно доступен для исследования |
Французский (исторический) | Корпус MCVF | Структура фразы | Свободно доступен для исследования |
Португальский (исторический) | Тихо Браге корпус | Структура фразы | ? |
венгерский язык | Универсальные зависимости , Сегед | Зависимость | CC BY-NC-SA |
венгерский язык | Венгерский Treebank | Структура фразы | ? |
исландский | IcePaHC - исландский анализируемый исторический корпус | Структура фразы | Открытый исходный код ( Стандартная общественная лицензия ограниченного применения GNU ) |
исландский | Универсальные зависимости , IcePaHC | Зависимость | CC BY-SA |
исландский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
индонезийский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
индонезийский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Ирландский | Универсальные зависимости , IDT | Зависимость | CC BY-SA |
Итальянский | ISST - итальянский синтаксико-семантический банк деревьев | Структура фразы и зависимость | Плата за лицензию |
Итальянский | MIDT (Объединенный банк деревьев итальянских зависимостей), полученный в результате слияния и согласования банков деревьев TUT и ISST-CoNLL / TANL | зависимость | Свободно доступен для исследования |
Итальянский | VIT - Venice Italian Treebank | Структура фразы и зависимость | Плата за лицензию |
Итальянский | Универсальные зависимости , ISDT | Зависимость | CC BY-NC-SA |
Итальянский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
Итальянский | Универсальные зависимости , PoSTWITA | Зависимость | CC BY-NC-SA |
Итальянский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Итальянский | Универсальные зависимости , TWITTIRO | Зависимость | CC BY-SA |
Итальянский | Универсальные зависимости , VIT | Зависимость | CC BY-NC-SA |
Итальянский | Итальянский синтаксико-семантический банк деревьев для общей задачи CoNLL-2007 (ISST-CoNLL) | зависимость | Свободно доступен для исследования |
Итальянский | SUT - Siena University Treebank | ? | ? |
Итальянский | TUT - Treebank Туринского университета | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Итальянский | ISDT (итальянский Stanford Dependency Treebank) | зависимость | Свободно доступен для исследования |
Японский | Киотский текстовый корпус | ? | ? |
Японский | Универсальные зависимости , BCCWJ | Зависимость | CC BY-NC-SA |
Японский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Японский | Универсальные зависимости , KTC | Зависимость | CC BY-SA |
Японский | Универсальные зависимости , современные | Зависимость | CC BY-NC-ND |
Японский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Японский | Keyaki Treebank | Структура фразы | Открытый исходный код ( лицензия Creative Commons ) |
Японский | Tübingen Treebank of Japanese / Spontaneous Speech (TüBa-J / S) | Структура фразы | Свободно доступен для исследования |
Японский | Корпус зависимостей ATR | Зависимость | ? |
Карельский | Универсальные зависимости , ККПП | Зависимость | CC BY-SA |
Казахский | Универсальные зависимости , KTB | Зависимость | CC BY-SA |
Коми Пермяк | Универсальные зависимости , UH | Зависимость | CC BY-SA |
Коми Зырян | Универсальные зависимости , IKDP | Зависимость | CC BY-SA |
Коми Зырян | Универсальные зависимости , Решетка | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , Kaist | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , Penn | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Корейский | Универсальные зависимости , Седжон | Зависимость | CC BY-SA |
Корейский | Корейский Treebank | Структура фразы | Консорциум лингвистических данных |
Курманджи | Универсальные зависимости , MG | Зависимость | CC BY-SA |
латинский | Универсальные зависимости , ITTB | Зависимость | CC BY-NC-SA |
латинский | Универсальные зависимости , LLCT | Зависимость | CC BY-SA |
латинский | Универсальные зависимости , Персей | Зависимость | CC BY-NC-SA |
латинский | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
латинский | Индекс Thomisticus Treebank | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латинский | Берег деревьев PROIEL [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латинский | Банк дерева латинских зависимостей [9] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латышский язык | Универсальные зависимости , LVTB | Зависимость | CC BY-SA |
Литовский | Универсальные зависимости , ALKSNIS | Зависимость | CC BY-SA |
Литовский | Универсальные зависимости , HSE | Зависимость | CC BY-SA |
Ливви | Универсальные зависимости , ККПП | Зависимость | CC BY-SA |
Магахи | Универсальные зависимости , MGTB | Зависимость | CC BY-SA |
Мальтийский | Универсальные зависимости , MUDT | Зависимость | CC BY-SA |
Маратхи | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
Мбья гуарани | Универсальные зависимости , Дули | Зависимость | CC BY-NC-SA |
Мбья гуарани | Универсальные зависимости , Томас | Зависимость | CC BY-NC-SA |
Средний ирландский | Универсальные зависимости , CritMITB | Зависимость | CC BY-SA |
Средний ирландский | Универсальные зависимости , DipMITB | Зависимость | CC BY-SA |
Мокша | Универсальные зависимости , JR | Зависимость | CC BY-SA |
Найя | Универсальные зависимости , NSC | Зависимость | CC BY-SA |
Северный саамский | Универсальные зависимости , Giella | Зависимость | CC BY-SA |
норвежский язык | Инфраструктура банка деревьев INESS | Свалочный газ | ? |
норвежский язык | Универсальные зависимости , Bokmaal | Зависимость | CC BY-SA |
норвежский язык | Универсальные зависимости , нюнорск | Зависимость | CC BY-SA |
норвежский язык | Универсальные зависимости , NynorskLIA | Зависимость | CC BY-SA |
Старославянский | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Старославянский | TOROT Treebank [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Старофранцузский | Универсальные зависимости , SRCMF | Зависимость | CC BY-NC-SA |
Древнерусский | Универсальные зависимости , RNC | Зависимость | CC BY-SA |
Древнерусский | Универсальные зависимости , TOROT | Зависимость | CC BY-NC-SA |
Древнерусский | TOROT Treebank [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Персидский | Банк деревьев персидской зависимости (PerDT) | Зависимость | Свободно доступен для исследования |
Персидский | PerTreeBank | HPSG | Свободно доступен для исследования |
Персидский | Универсальные зависимости , Сераджи | Зависимость | CC BY-SA |
Польский | Treebank / Test Suite для польского языка | HPSG | ? |
Польский | Универсальные зависимости , LFG | Зависимость | GPL |
Польский | Универсальные зависимости , PDB | Зависимость | CC BY-NC-SA |
Польский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Польский | Складница | Структура фразы и зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
португальский | Универсальные зависимости , Bosque | Зависимость | CC BY-SA |
португальский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
португальский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
португальский | Projecto Floresta Sintá (c) tica | Зависимость , структура фразы | Открытый исходный код ( общедоступная лицензия GNU ) |
румынский | Румынский Dependency Treebank | Зависимость | ? |
румынский | Универсальные зависимости , нестандартные | Зависимость | CC BY-SA |
румынский | Универсальные зависимости , RRT | Зависимость | CC BY-SA |
румынский | Универсальные зависимости , SiMoNERo | Зависимость | CC BY-SA |
русский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
русский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
русский | Универсальные зависимости , SynTagRus | Зависимость | CC BY-NC-SA |
русский | Универсальные зависимости , Тайга | Зависимость | CC BY-SA |
русский | SynTagRus Dependency Treebank ( Русский национальный корпус ) | Зависимость | Свободно доступен для исследования |
санскрит | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
санскрит | Универсальные зависимости , Ведический | Зависимость | CC BY-SA |
Шотландский гэльский | Универсальные зависимости , ARCOSG | Зависимость | CC BY-SA |
сербский | Универсальные зависимости , SET | Зависимость | CC BY-SA |
Синдхи | Универсальные зависимости , MazharDootio | Зависимость | CC BY-SA |
Скольт-саамский | Универсальные зависимости , Giellagas | Зависимость | CC BY-SA |
словацкий | Универсальные зависимости , SNK | Зависимость | CC BY-SA |
Словенский | Словенский Dependency Treebank | Зависимость | Свободно доступен для исследования |
словенский | Универсальные зависимости , SSJ | Зависимость | CC BY-NC-SA |
словенский | Универсальные зависимости , SST | Зависимость | CC BY-NC-SA |
испанский | Cast3LB | Структура фразы и зависимость | Свободно доступен для исследования |
испанский | Универсальные зависимости , AnCora | Зависимость | GPL |
испанский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
испанский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
испанский | UAM Treebank испанского языка | Структура фразы | Свободно доступен для исследования |
Шведский | Talbanken05 | Структура фразы и зависимость | Свободно доступен для исследования |
Шведский | Шведский Treebank | Структура фразы | Свободно доступен для исследования |
Шведский | Универсальные зависимости , LinES | Зависимость | CC BY-NC-SA |
Шведский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Шведский | Универсальные зависимости , Talbanken | Зависимость | CC BY-SA |
Шведский | SMULTRON - Параллельный банк деревьев EN-DE-SV | Структура фразы | Свободно доступен для исследования |
Шведский язык жестов | Универсальные зависимости , SSLC | Зависимость | CC BY-SA |
Швейцарский немецкий | Универсальные зависимости , UZH | Зависимость | CC BY-SA |
Тагальский | Универсальные зависимости , TRG | Зависимость | CC BY-SA |
Тагальский | Универсальные зависимости , Угнаян | Зависимость | CC BY-NC-SA |
Тамильский | Универсальные зависимости , TTB | Зависимость | CC BY-NC-SA |
телугу | Универсальные зависимости , MTG | Зависимость | CC BY-SA |
Тайский | NAiST Thai Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Тайский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
турецкий | METU-Sabanci Турецкий банк деревьев | Зависимость | Свободно доступен для исследования |
турецкий | Универсальные зависимости , BOUN | Зависимость | CC BY-SA |
турецкий | Универсальные зависимости , ГБ | Зависимость | CC BY-SA |
турецкий | Универсальные зависимости , IMST | Зависимость | CC BY-NC-SA |
турецкий | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
украинец | Институт украинского языка, НПО Золотой стандарт | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
украинец | Универсальные зависимости , МЕ | Зависимость | CC BY-NC-SA |
Верхнесорбский | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
Урду | NU-FAST Treebank | Структура фразы | Контакты в компании Computational Learning Strategies & Practices |
Урду | Банк деревьев URDU.KON-TB | Структура фраз и гиперзависимостей | Контакты в компании Computational Learning Strategies & Practices |
Урду | Универсальные зависимости , UDTB | Зависимость | CC BY-NC-SA |
Уйгурский | Универсальные зависимости , UDT | Зависимость | CC BY-SA |
вьетнамский | Универсальные зависимости , ВТБ | Зависимость | CC BY-SA |
вьетнамский | Вьетнамский Treebank | Структура фразы | Свободно доступен для исследования |
вьетнамский | Вьетнамский Dependency Treebank | Зависимость | Свободно доступен для исследования |
Варлпири | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
валлийский | Универсальные зависимости , CCG | Зависимость | CC BY-SA |
Волоф | Универсальные зависимости , WTB | Зависимость | CC BY-SA |
Йоруба | Универсальные зависимости , YTB | Зависимость | CC BY-SA |
Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотации для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества разных корпусов деревьев. Например, универсальный подход к аннотации для дерева зависимостей; [10] и универсальный подход к аннотации для древовидных структур фраз. [11]
инструменты поиска
Один из ключевых способов извлечения доказательств из банка деревьев - поисковые инструменты. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Сложность пользовательских интерфейсов варьируется от систем запросов на основе выражений, предназначенных для компьютерных программистов, до сред полного исследования, предназначенных для лингвистов общего профиля. Уоллис (2008) подробно обсуждает принципы поиска берегов деревьев и рассматривает современное состояние дел. [12]
- Грамматика структуры фраз
- КорпусПоиск
- fsq
- ICECUP III ; ICECUP IV
- Лингвистическая база данных (LDB)
- МонаПоиск
- tgrep; tgrep2
- Tregex
- ВИКТОРИЯ
- Грамматика зависимостей
- DTAG
- Netgraph
- Санчай
- TrEd
- Грю-матч
- Грамматика зависимостей и / или грамматика структуры фраз
- ANNIS (многослойный)
- PML-TQ (многослойный)
- TigerSearch (однослойный)
- INESS-Поиск
- Другие
- GSearch
- Поисковая машина лингвиста
- Milhafre: поисковая система для португальского банка деревьев
- Татоеба
Смотрите также
- Текстовый корпус
- Грамматика структуры фраз
- Грамматика зависимостей
- Парсинг
- Пометка части речи
Рекомендации
- ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Вайли.
- ↑ Sampson, G. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Frankfurt am Main: Peter Lang, pp. 157-184
- ^ Хайтао Лю, Вэй Хуанг - Синтаксис зависимости китайского языка для древовидного банка , опубликованный Коммуникационным университетом Китая , опубликованный (онлайн) Ассоциацией компьютерной лингвистики - доступ 2020-2-4
- ^ Кюблер, Сандра; Макдональд, Райан; Нивр, Иоаким (18 декабря 2008 г.). «Анализ зависимостей». Синтез лекций по технологиям человеческого языка . 2 (1): 1–127. DOI : 10.2200 / s00169ed1v01y200901hlt002 .
- ^ Kais Dukes (2013) Семантическая аннотация роботизированных пространственных команд . Конференция по языкам и технологиям (LTC). Познань, польша.
- ^ Челано, Джузеппе Г.А. 2014. Рекомендации по аннотации Древнегреческого банка деревьев зависимости 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
- ^ Мамбрини, Ф. 2016. Древнегреческий банк деревьев зависимости: лингвистическая аннотация в учебной среде. В: Бодар, Дж. И Романелло, М. (ред.) Цифровая классика вне эхо-камеры: обучение, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. DOI : 10,5334 / bat.f
- ^ a b c d e f Даг Хауг. 2015. Treebank в историко-лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджаминов, 188-202. Препринт доступен на http://folk.uio.no/daghaug/historical-treebanks.pdf .
- ^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских берегов деревьев (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
- ^ McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; и другие. «Универсальная аннотация зависимостей для многоязычного синтаксического анализа». Материалы ACL 2013 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Хан, AL-F; Вонг, Д. Ф.; Чао, LS; Lu, Y .; Он, Л. и Тиан, Л. (2014). «Универсальный набор тегов фраз для многоязычных групп деревьев» (PDF) . Труды CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . DOI : 10.1007 / 978-3-319-12277-9_22 .
- ^ Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.