Использование внешних ссылок в этой статье может не соответствовать политике или рекомендациям Википедии . ( ноябрь 2017 г. ) |
Эта статья нуждается в дополнительных ссылках для проверки . ( октябрь 2021 г. ) |
В лингвистике банк деревьев представляет собой анализируемый корпус текста , который аннотирует синтаксическую или семантическую структуру предложения . Построение анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1]
Термин « банк деревьев» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что как синтаксическая, так и семантическая структура обычно композиционно представляются в виде древовидной структуры . Термин « разобранный корпус » часто используется взаимозаменяемо с термином «банк деревьев» с акцентом на первичность предложений, а не деревьев.
Банки деревьев часто создаются поверх корпуса, который уже был аннотирован тегами части речи . В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Банки деревьев могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор присваивает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, корректируют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка является трудоемким проектом, который может занять у группы дипломированных лингвистов несколько лет. Уровень детализации аннотации и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка деревьев.
Некоторые банки деревьев следуют определенной лингвистической теории в своих синтаксических аннотациях (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее специфичными для теории. Однако можно выделить две основные группы: древовидные банки, которые аннотируют структуру фразы (например, Penn Treebank или ICE-GB ), и те, которые аннотируют структуру зависимостей (например, пражский древовидный банк зависимостей или коранический арабский древовидный банк зависимостей ).
Важно прояснить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ слова « Джон любит Мэри », показанный на рисунке справа, может быть представлен простыми помеченными скобками в текстовом файле, подобно этому (в соответствии с нотацией Penn Treebank ):
(С (НП (ННП Джон)) (ВП (ВПЗ любит) (НП (ННП Мары))) (. . .))
Этот тип представления популярен, поскольку требует мало ресурсов, а древовидная структура относительно легко читается без использования программных средств. Однако по мере того, как корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают XML - схемы, специфичные для банка деревьев, нумерованные отступы и различные типы нотаций зазоров.
С точки зрения вычислительной лингвистики [3] банки деревьев использовались для разработки современных систем обработки естественного языка, таких как маркировщики частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. [4]Большинство вычислительных систем используют данные банка деревьев золотого стандарта. Тем не менее, автоматически проанализированный корпус, не исправленный лингвистами-людьми, все же может быть полезен. Он может предоставить свидетельство частоты правил для синтаксического анализатора. Анализатор можно улучшить, применяя его к большим объемам текста и собирая частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.
В корпусной лингвистике банки деревьев используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений во времени). После анализа корпус будет содержать данные о частоте, показывающие, насколько часто используются различные грамматические структуры. Банки деревьев также предоставляют доказательства охвата и поддерживают открытие новых, непредвиденных грамматических явлений.
Еще одно использование деревьев в теоретической лингвистике и психолингвистике - свидетельство взаимодействия. Заполненный банк деревьев может помочь лингвистам провести эксперименты, чтобы выяснить, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение сформировать другие, и попытаться понять, как говорящие и писатели принимают решения, формируя предложения. Исследования взаимодействия особенно плодотворны, когда к корпусу добавляются дополнительные уровни аннотаций, например, семантический, прагматический. Затем можно оценить влияние несинтаксических явлений на грамматический выбор.
В лингвистических исследованиях аннотированные данные банка деревьев использовались в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве встречающихся в природе примеров. [ нужна ссылка ]
Семантический древовидный банк представляет собой набор предложений на естественном языке, аннотированных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank , разработанный в Университете Гронингена и аннотированный с использованием теории репрезентации дискурса . Примером неглубокого семантического древовидного банка является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .
Язык | Банк деревьев | Семантический формализм | Распространение/лицензия |
---|---|---|---|
китайский язык | Китайские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
английский | Аннотация Значение Представительство (AMR) Банк | Глубокая семантика | ? |
английский | Фреймнет | Мелкая семантика | ? |
английский | Универсальная концептуальная когнитивная аннотация (UCCA) | Глубокая семантика | ? |
английский | Дерево команд роботов [5] | Глубокая семантика | ? |
английский | Гронинген Значение банка | Глубокая семантика | ? |
английский | Проект DeepBank | Глубокая семантика | ? |
английский | Проанализированный корпус семантики Treebank | Глубокая семантика | ? |
английский | РобоКубок Корпус | Глубокая семантика | ? |
английский | геозапрос | Глубокая семантика | ? |
английский | ПропБанк | Семантика PropBank | разные лицензии |
финский | Финские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
финский | Финский пропбанк | Семантика PropBank | CC BY-SA 4.0 |
Французский | Французские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
Немецкий | Немецкие универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
итальянский | Итальянские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
португальский | Португальский PortLex | Семантика PropBank | ? |
португальский | Португальские универсальные предложения | Семантика PropBank | CC BY-NC-SA 3.0 США |
испанский язык | Универсальные предложения испанского языка | Семантика PropBank | CC BY-NC-SA 3.0 США |
турецкий | Турецкий пропбанк | Семантика PropBank | CC BY-NC-SA 4.0 |
Многие синтаксические банки деревьев были разработаны для самых разных языков:
Язык | Банк деревьев | Синтаксический формализм | Распространение/лицензия |
---|---|---|---|
Абаза | Универсальные зависимости , ATB | Зависимость | CC BY-SA |
африкаанс | Универсальные зависимости , AfriBooms | Зависимость | CC BY-SA |
аккадский | Универсальные зависимости , PISANDUB | Зависимость | CC BY-SA |
албанский | Универсальные зависимости , TSA | Зависимость | CC BY-SA |
амхарский | Универсальные зависимости , ATT | Зависимость | CC BY-SA |
Древнегреческий | Универсальные зависимости , Персей | Зависимость | CC BY-NC-SA |
Древнегреческий | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
Греческий (древний) | Древнегреческий банк зависимостей [6] [7] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Греческий (древний) | ПРОИЭЛ Банк деревьев [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
арабский | Колумбийский арабский банк деревьев (CATiB) | Зависимость | Консорциум лингвистических данных |
арабский | Пражский арабский банк дерева зависимостей (PADT) | Зависимость | Консорциум лингвистических данных |
арабский | Универсальные зависимости , NYUAD | Зависимость | CC BY-SA |
арабский | Универсальные зависимости , PADT | Зависимость | CC BY-NC-SA |
арабский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
арабский | Penn Arabic Treebank | Структура фразы | Консорциум лингвистических данных |
Армянский | Универсальные зависимости , ArmTDP | Зависимость | CC BY-SA |
ассирийский (неоарамейский) | Универсальные зависимости , AS | Зависимость | CC BY-SA |
Бамбара | Универсальные зависимости , CRB | Зависимость | CC BY-SA |
баскский | Универсальные зависимости , BDT | Зависимость | CC BY-NC-SA |
белорусский | Универсальные зависимости , НИУ ВШЭ | Зависимость | CC BY-SA |
бходжпури | Универсальные зависимости , BhEn | Зависимость | CC BY-SA |
бходжпури | Универсальные зависимости , BHTB | Зависимость | CC BY-SA |
бретонский | Универсальные зависимости , KEB | Зависимость | CC BY-SA |
болгарский | Универсальные зависимости , BTB | Зависимость | CC BY-NC-SA |
болгарский | БулДеревоБанк | HPSG | В свободном доступе для исследования |
бурятский | Универсальные зависимости , BDT | Зависимость | CC BY-SA |
кантонский | Универсальные зависимости , Гонконг | Зависимость | CC BY-SA |
Каталонский | Cat3LB | Структура фразы | В свободном доступе для исследования |
Каталонский | Универсальные зависимости , AnCora | Зависимость | GPL |
китайский язык | Синика Трибанк | Падежная грамматика | Нет в свободном доступе |
китайский язык | Универсальные зависимости , CFL | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , GSDSimp | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , Гонконг | Зависимость | CC BY-SA |
китайский язык | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
китайский язык | Penn China Treebank | Структура фразы | Консорциум лингвистических данных |
китайский язык | Китайский банк зависимостей | Зависимость | Консорциум лингвистических данных |
арабский (классический) | Коранический арабский банк дерева зависимостей (QADT) ( Арабский корпус Корана ) | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Классический армянский | ПРОИЭЛ Банк деревьев [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
коптский | Универсальные зависимости , Коптский скрипторий | Зависимость | СС BY |
хорватский | Хорватский банк зависимостей | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
хорватский | Универсальные зависимости , SET | Зависимость | CC BY-SA |
чешский язык | Пражское дерево зависимостей | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
чешский язык | Универсальные зависимости , CAC | Зависимость | CC BY-SA |
чешский язык | Универсальные зависимости , CLTT | Зависимость | CC BY-SA |
чешский язык | Универсальные зависимости , FicTree | Зависимость | CC BY-NC-SA |
чешский язык | Универсальные зависимости , PDT | Зависимость | CC BY-NC-SA |
чешский язык | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
датский | Датский банк зависимостей | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
датский | Дендрарий: синтаксический древовидный корпус датского языка. | Структура фразы | Плата за лицензию |
датский | Универсальные зависимости , ДДТ | Зависимость | CC BY-SA |
датский | Универсальные зависимости , DTB | Зависимость | CC BY-SA |
нидерландский язык | Разговорный голландский корпус (CGN) | Структура фразы | Плата за лицензию |
нидерландский язык | Универсальные зависимости , Alpino | Зависимость | CC BY-SA |
нидерландский язык | Универсальные зависимости , LassySmall | Зависимость | CC BY-SA |
нидерландский язык | ЛАССИ Маленькая и Большая | Зависимость | Плата за лицензию |
нидерландский язык | Альпийское дерево | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
английский | CCGbank | Комбинаторная категориальная грамматика | Консорциум лингвистических данных |
английский | LinGO Редвудс | HPSG | ? |
английский | Анализируемый корпус Ланкастера | Структура фразы | ? |
английский | Пражский английский банк зависимостей | Зависимость | Консорциум лингвистических данных |
английский | Универсальные зависимости , BhEn | Зависимость | CC BY-SA |
английский | Универсальные зависимости , ESL | Зависимость | CC BY-SA |
английский | Универсальные зависимости , EWT | Зависимость | CC BY-SA |
английский | Универсальные зависимости , GUM | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , GUMReddit | Зависимость | СС BY |
английский | Универсальные зависимости , ЛинЭС | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
английский | Универсальные зависимости , Местоимения | Зависимость | CC BY-SA |
английский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
английский | Проанализированный корпус семантики Treebank | Структура фразы | Открытый исходный код ( лицензия Creative Commons ) |
английский | Кристин Корпус | Структура фразы | В свободном доступе для исследования |
английский | Люси Корпус | Структура фразы | В свободном доступе для исследования |
английский | Сюзанна Корпус | Структура фразы | В свободном доступе для исследования |
английский | Корпус BLLIP WSJ | Структура фразы | Консорциум лингвистических данных |
английский | Тюбингенское дерево английского языка / спонтанной речи (TüBa-E / S) | HPSG | В свободном доступе для исследования |
английский | Диахронический корпус современного разговорного английского языка (DCPSE) | Структура фразы | Плата за лицензию |
английский | Британский компонент Международного корпуса английского языка (ICE-GB) | Структура фразы | Плата за лицензию |
английский | Банк зависимости PARC 700 | Зависимость | ? |
английский | Дерево запросов Yahoo | Зависимость | В свободном доступе для исследования |
английский | Пенн Трибэнк | Структура фразы | Консорциум лингвистических данных |
английский | Мульти-дерево | Структура фразы | Доступно онлайн для сравнения |
английский | Корпус CHILDES Brown Eve с аннотацией зависимостей | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
английский | SMULTRON — параллельный банк деревьев EN-DE-SV | Структура фразы | В свободном доступе для исследования |
эрзя | Универсальные зависимости , JR | Зависимость | CC BY-SA |
эстонский | Арборест | Структура фразы | ? |
эстонский | Синтаксически проанализированный и устраненный текстовый корпус | Зависимость | В свободном доступе для исследования |
эстонский | Универсальные зависимости , EDT | Зависимость | CC BY-NC-SA |
эстонский | Универсальные зависимости , EWT | Зависимость | CC BY-NC-SA |
Фарерский | Универсальные зависимости , FarPaHC | Зависимость | CC BY-SA |
Фарерский | Универсальные зависимости , OFT | Зависимость | CC BY-SA |
финский | Дерево зависимостей Турку (TDT) | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
финский | Универсальные зависимости , FTB | Зависимость | СС BY |
финский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
финский | Универсальные зависимости , TDT | Зависимость | CC BY-SA |
французский (разговорный) | Рапсодия | Зависимость и макросинтаксическая аннотация | Открытый исходный код ( лицензия Creative Commons ) |
Французский | Л'Арборатуар | Структура фразы | ? |
Французский | Универсальные зависимости , CrapBank | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , FQB | Зависимость | GPL |
Французский | Универсальные зависимости , FTB | Зависимость | GPL |
Французский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
Французский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Французский | Универсальные зависимости , Sequoia | Зависимость | GPL |
Французский | Универсальные зависимости , Разговорный | Зависимость | CC BY-SA |
Французский | Французский берег дерева | Структура фразы | В свободном доступе для исследования |
Французский | Бесплатный французский банк деревьев | Структура фразы | Лицензия с открытым исходным кодом LGPL-LR |
Французский | Секвойя Трибанк | Структура фразы и зависимость | Лицензия с открытым исходным кодом LGPL-LR |
галисийский | Универсальные зависимости , CTG | Зависимость | CC BY-NC-SA |
галисийский | Универсальные зависимости , TreeGal | Зависимость | GPL |
Немецкий | Гамбургский банк дерева зависимостей (HDT) | Зависимость | В свободном доступе для исследования |
Немецкий | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
Немецкий | Универсальные зависимости , LIT | Зависимость | CC BY-NC-SA |
Немецкий | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
Немецкий | SMULTRON — параллельный банк деревьев EN-DE-SV | Структура фразы | В свободном доступе для исследования |
Немецкий | НЕГРА | Структура фразы | В свободном доступе для исследования |
Немецкий | ТИГР | Структура фразы | В свободном доступе для исследования |
Немецкий | Тюбингенское дерево немецкой / спонтанной речи (TüBa-D/S) | Структура фразы | В свободном доступе для исследования |
Немецкий | Тюбингенское дерево письменного немецкого языка (TüBa-D/Z) | Структура фразы | В свободном доступе для исследования |
Немецкий | Тюбингенский частично проанализированный корпус письменного немецкого языка (TüPP-D/Z) | Структура фразы | Плата за лицензию |
готика | ПРОИЭЛ Банк деревьев [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
готика | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
греческий | Греческий банк зависимостей | Зависимость | Нет в свободном доступе |
греческий | Универсальные зависимости , GDT | Зависимость | CC BY-NC-SA |
иврит | Универсальные зависимости , HTB | Зависимость | CC BY-NC-SA |
иврит | Дерево зависимостей на иврите | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
хинди английский | Универсальные зависимости , HIENCS | Зависимость | CC BY-SA |
хинди | Универсальные зависимости , HDTB | Зависимость | CC BY-NC-SA |
хинди | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
хинди | АннКорра | Зависимость | ? |
английский (исторический) | Penn Parsed Corpora of Historical English ; | Структура фразы | Консорциум лингвистических данных (по состоянию на апрель 2020 г.) |
английский (исторический) | Анализируемый корпус древнеанглийской прозы Йорк-Торонто-Хельсинки (YCOE) | Структура фразы | В свободном доступе для исследования |
французский (исторический) | Корпус MCVF | Структура фразы | В свободном доступе для исследования |
Португальский (исторический) | Корпус Тихо Браге | Структура фразы | ? |
Венгерский | Универсальные зависимости , Сегед | Зависимость | CC BY-NC-SA |
Венгерский | Венгерский банк деревьев | Структура фразы | ? |
исландский | IcePaHC - анализируемый исландский исторический корпус | Структура фразы | Открытый исходный код ( сокращенная стандартная общественная лицензия GNU ) |
исландский | Универсальные зависимости , IcePaHC | Зависимость | CC BY-SA |
исландский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
индонезийский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
индонезийский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
ирландский | Универсальные зависимости , IDT | Зависимость | CC BY-SA |
итальянский | ISST - итальянский синтаксико-семантический банк деревьев | Структура фразы и зависимость | Плата за лицензию |
итальянский | MIDT (Merged Italian Dependency Treebank), полученный в результате слияния и согласования банков деревьев TUT и ISST-CoNLL/TANL. | зависимость | В свободном доступе для исследования |
итальянский | VIT - Венецианское итальянское дерево | Структура фразы и зависимость | Плата за лицензию |
итальянский | Универсальные зависимости , ISDT | Зависимость | CC BY-NC-SA |
итальянский | Универсальные зависимости , ParTUT | Зависимость | CC BY-NC-SA |
итальянский | Универсальные зависимости , PoSTWITA | Зависимость | CC BY-NC-SA |
итальянский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
итальянский | Универсальные зависимости , TWITTIRO | Зависимость | CC BY-SA |
итальянский | Универсальные зависимости , ВИТ | Зависимость | CC BY-NC-SA |
итальянский | Итальянский синтаксико-семантический банк деревьев для общей задачи CoNLL-2007 (ISST-CoNLL) | зависимость | В свободном доступе для исследования |
итальянский | SUT - Дерево Сиенского университета | ? | ? |
итальянский | TUT - Дерево Туринского университета | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
итальянский | ISDT (итальянский Stanford Dependency Treebank) | зависимость | В свободном доступе для исследования |
японский язык | Киотский текстовый корпус | ? | ? |
японский язык | Универсальные зависимости , BCCWJ | Зависимость | CC BY-NC-SA |
японский язык | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
японский язык | Универсальные зависимости , KTC | Зависимость | CC BY-SA |
японский язык | Универсальные зависимости , Модерн | Зависимость | CC BY-NC-ND |
японский язык | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
японский язык | Берега деревьев Кейаки | Структура фразы | Открытый исходный код ( лицензия Creative Commons ) |
японский язык | Тюбингенское дерево японского языка / спонтанная речь (TüBa-J / S) | Структура фразы | В свободном доступе для исследования |
японский язык | Корпус зависимостей ATR | Зависимость | ? |
карельский | Универсальные зависимости , ККПП | Зависимость | CC BY-SA |
казахский | Универсальные зависимости , KTB | Зависимость | CC BY-SA |
Коми-пермяки | Универсальные зависимости , UH | Зависимость | CC BY-SA |
Коми зырян | Универсальные зависимости , IKDP | Зависимость | CC BY-SA |
Коми зырян | Универсальные зависимости , Решетка | Зависимость | CC BY-SA |
корейский язык | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
корейский язык | Универсальные зависимости , Kaist | Зависимость | CC BY-SA |
корейский язык | Универсальные зависимости , Пенсильвания | Зависимость | CC BY-SA |
корейский язык | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
корейский язык | Универсальные зависимости , Седжонг | Зависимость | CC BY-SA |
корейский язык | Корейский банк деревьев | Структура фразы | Консорциум лингвистических данных |
Курманджи | Универсальные зависимости , MG | Зависимость | CC BY-SA |
латинский | Универсальные зависимости , ITTB | Зависимость | CC BY-NC-SA |
латинский | Универсальные зависимости , LLCT | Зависимость | CC BY-SA |
латинский | Универсальные зависимости , Персей | Зависимость | CC BY-NC-SA |
латинский | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
латинский | Банк деревьев Index Thomisticus | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латинский | ПРОИЭЛ Банк деревьев [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латинский | Банк латинских зависимостей [9] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
латышский язык | Универсальные зависимости , LVTB | Зависимость | CC BY-SA |
Литовский | Универсальные зависимости , ALKSNIS | Зависимость | CC BY-SA |
Литовский | Универсальные зависимости , НИУ ВШЭ | Зависимость | CC BY-SA |
Ливви | Универсальные зависимости , ККПП | Зависимость | CC BY-SA |
Магахи | Универсальные зависимости , MGTB | Зависимость | CC BY-SA |
Мальтийский | Универсальные зависимости , MUDT | Зависимость | CC BY-SA |
маратхи | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
Мбья Гуарани | Универсальные зависимости , Дули | Зависимость | CC BY-NC-SA |
Мбья Гуарани | Универсальные зависимости , Томас | Зависимость | CC BY-NC-SA |
Средний ирландский | Универсальные зависимости , CritMITB | Зависимость | CC BY-SA |
Средний ирландский | Универсальные зависимости , DipMITB | Зависимость | CC BY-SA |
Мокша | Универсальные зависимости , JR | Зависимость | CC BY-SA |
Найя | Универсальные зависимости , NSC | Зависимость | CC BY-SA |
северные саамы | Универсальные зависимости , Джиелла | Зависимость | CC BY-SA |
Норвежский | Инфраструктура банка деревьев INESS | СГ | ? |
Норвежский | Универсальные зависимости , букмол | Зависимость | CC BY-SA |
Норвежский | Универсальные зависимости , нюнорск | Зависимость | CC BY-SA |
Норвежский | Универсальные зависимости , НюнорскЛИА | Зависимость | CC BY-SA |
старославянский | Универсальные зависимости , PROIEL | Зависимость | CC BY-NC-SA |
старославянский | Банк деревьев ТОРОТ [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
Старый французский | Универсальные зависимости , SRCMF | Зависимость | CC BY-NC-SA |
древнерусский | Универсальные зависимости , RNC | Зависимость | CC BY-SA |
древнерусский | Универсальные зависимости , ТОРОТ | Зависимость | CC BY-NC-SA |
древнерусский | Банк деревьев ТОРОТ [8] | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
персидский | Персидский банк дерева зависимостей (PerDT) | Зависимость | В свободном доступе для исследования |
персидский | PerTreeBank | HPSG | В свободном доступе для исследования |
персидский | Универсальные зависимости , Сераджи | Зависимость | CC BY-SA |
польский | Treebank/Test Suite для польского языка | HPSG | ? |
польский | Универсальные зависимости , LFG | Зависимость | GPL |
польский | Универсальные зависимости , PDB | Зависимость | CC BY-NC-SA |
польский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
польский | Складница | Структура фразы и зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
португальский | Универсальные зависимости , Bosque | Зависимость | CC BY-SA |
португальский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
португальский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
португальский | Projecto Floresta Sintá(c)tica | Зависимость , Структура фразы | Открытый исходный код ( общедоступная лицензия GNU ) |
румынский | Румынское дерево зависимостей | Зависимость | ? |
румынский | Универсальные зависимости , нестандартные | Зависимость | CC BY-SA |
румынский | Универсальные зависимости , RRT | Зависимость | CC BY-SA |
румынский | Универсальные зависимости , SiMoNERo | Зависимость | CC BY-SA |
русский | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
русский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
русский | Универсальные зависимости , СинТагРус | Зависимость | CC BY-NC-SA |
русский | Универсальные зависимости , Тайга | Зависимость | CC BY-SA |
русский | SynTagRus Dependency Treebank ( Национальный корпус русского языка ) | Зависимость | В свободном доступе для исследования |
санскрит | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
санскрит | Универсальные зависимости , ведические | Зависимость | CC BY-SA |
шотландский гэльский | Универсальные зависимости , ARCOSG | Зависимость | CC BY-SA |
сербский | Универсальные зависимости , SET | Зависимость | CC BY-SA |
синдхи | Универсальные зависимости , MazharDootio | Зависимость | CC BY-SA |
скольт-саамы | Универсальные зависимости , Giellagas | Зависимость | CC BY-SA |
словацкий | Универсальные зависимости , СНК | Зависимость | CC BY-SA |
словенский | Словенский банк зависимостей | Зависимость | В свободном доступе для исследования |
словенский | Универсальные зависимости , SSJ | Зависимость | CC BY-NC-SA |
словенский | Универсальные зависимости , SST | Зависимость | CC BY-NC-SA |
испанский язык | Cast3LB | Структура фразы и зависимость | В свободном доступе для исследования |
испанский язык | Универсальные зависимости , AnCora | Зависимость | GPL |
испанский язык | Универсальные зависимости , GSD | Зависимость | CC BY-SA |
испанский язык | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
испанский язык | UAM Treebank испанского языка | Структура фразы | В свободном доступе для исследования |
шведский | Талбанкен05 | Структура фразы и зависимость | В свободном доступе для исследования |
шведский | Шведский банк деревьев | Структура фразы | В свободном доступе для исследования |
шведский | Универсальные зависимости , ЛинЭС | Зависимость | CC BY-NC-SA |
шведский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
шведский | Универсальные зависимости , Талбанкен | Зависимость | CC BY-SA |
шведский | SMULTRON — параллельный банк деревьев EN-DE-SV | Структура фразы | В свободном доступе для исследования |
Шведский язык жестов | Универсальные зависимости , SSLC | Зависимость | CC BY-SA |
швейцарский немецкий | Универсальные зависимости , УЖ | Зависимость | CC BY-SA |
тагальский | Универсальные зависимости , TRG | Зависимость | CC BY-SA |
тагальский | Универсальные зависимости , Угнаян | Зависимость | CC BY-NC-SA |
тамильский | Универсальные зависимости , TTB | Зависимость | CC BY-NC-SA |
телугу | Универсальные зависимости , MTG | Зависимость | CC BY-SA |
Тайский | NAiST Thai Treebank | Зависимость | Открытый исходный код ( общедоступная лицензия GNU ) |
Тайский | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
турецкий | METU-Sabanci Турецкий банк деревьев | Зависимость | В свободном доступе для исследования |
турецкий | Универсальные зависимости , BOUN | Зависимость | CC BY-SA |
турецкий | Универсальные зависимости , ГБ | Зависимость | CC BY-SA |
турецкий | Универсальные зависимости , IMST | Зависимость | CC BY-NC-SA |
турецкий | Универсальные зависимости , PUD | Зависимость | CC BY-SA |
украинец | Институт украинского языка, ОО «Золотой стандарт» | Зависимость | Открытый исходный код ( лицензия Creative Commons ) |
украинец | Универсальные зависимости , МЕ | Зависимость | CC BY-NC-SA |
верхнелужицкий | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
урду | Банк деревьев NU-FAST | Структура фразы | Контакты в Computational Learning Strategies & Practices |
урду | Банк деревьев УРДУ.КОН-ТБ | Фраза и структура гиперзависимости | Контакты в Computational Learning Strategies & Practices |
урду | Универсальные зависимости , UDTB | Зависимость | CC BY-NC-SA |
уйгурский | Универсальные зависимости , UDT | Зависимость | CC BY-SA |
вьетнамский | Универсальные зависимости , ВТБ | Зависимость | CC BY-SA |
вьетнамский | Вьетнамский банк деревьев | Структура фразы | В свободном доступе для исследования |
вьетнамский | Вьетнамский банк зависимостей | Зависимость | В свободном доступе для исследования |
Варлпири | Универсальные зависимости , UFAL | Зависимость | CC BY-SA |
валлийский | Универсальные зависимости , CCG | Зависимость | CC BY-SA |
волоф | Универсальные зависимости , WTB | Зависимость | CC BY-SA |
йоруба | Универсальные зависимости , YTB | Зависимость | CC BY-SA |
Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотации для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества различных корпусов банков деревьев. Например, универсальный подход к аннотации для деревьев зависимостей; [10] и универсальный подход к аннотации для банков деревьев структуры фраз. [11]
Один из ключевых способов извлечения доказательств из банка деревьев — использование инструментов поиска. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Пользовательские интерфейсы варьируются по сложности от систем запросов на основе выражений, предназначенных для компьютерных программистов, до полных сред исследования, предназначенных для общих лингвистов. Уоллис (2008) подробно обсуждает принципы поиска на деревьях и анализирует состояние дел того времени. [12]
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )