Treebank

Использование внешних ссылок в этой статье может не соответствовать политикам или рекомендациям Википедии . Пожалуйста, улучшите эту статью , удалив лишние или неприемлемые внешние ссылки и преобразовав полезные ссылки, где это уместно, в сноски . ( Ноябрь 2017 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Большинство синтаксических банков дерева аннотируют варианты либо структуры фразы (слева), либо структуры зависимостей (справа).

В лингвистике , Treebank является разобранный текст корпус , который помечает синтаксической или семантической приговор структуры. Создание анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . ^[1] Использование данных банка деревьев имеет важное значение с момента появления первого крупномасштабного банка деревьев Penn Treebank., был опубликован. Однако, несмотря на то, что они зародились в компьютерной лингвистике, ценность береговых деревьев становится все более широко признанной в лингвистических исследованиях в целом. Например, аннотированные данные банка деревьев сыграли решающую роль в синтаксических исследованиях, чтобы проверить лингвистические теории структуры предложений на большом количестве встречающихся в природе примеров.

Этимология [ править ]

Термин « древовидный банк» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . ^[2] Это связано с тем, что и синтаксическая, и семантическая структура обычно композиционно представлены в виде древовидной структуры . Термин « проанализированный корпус» часто используется как синоним термина «древовидный банк», с акцентом на примат предложений, а не деревьев.

Строительство [ править ]

Древовидные группы часто создаются поверх корпуса, который уже был помечен тегами части речи . В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка - это трудоемкий проект, на который команды дипломированных лингвистов могут уйти несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка дерева.

Пример дерева структуры фраз для Джон любит Мэри

Гибридное дерево интересов / зависимостей из Коранического арабского корпуса

Некоторые группы деревьев следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее конкретными в теории. Тем не менее, можно выделить две основные группы: банки деревьев, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB ), и те, которые аннотируют структуру зависимостей (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank ).

Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ для Джон любит Мэри , показанный на рисунке справа, может быть представлен в текстовом файле простыми помеченными скобками, как это (после нотации Penn Treebank ):

(S (НП (НП Джон)) (ВП (любит ВПЗ) (НП (ННП Марии))) (..))

Этот тип представления популярен, потому что он не требует больших ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают специфичные для дерева схемы XML , пронумерованные отступы и различные типы обозначений противостояния.

Приложения [ править ]

С точки зрения вычислительной лингвистики ^[3] , древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. ^[4]Большинство вычислительных систем используют данные золотого стандарта дерева деревьев. Тем не менее, автоматически анализируемый корпус, который не исправляется лингвистами-людьми, все еще может быть полезен. Он может предоставить свидетельство частоты правил для анализатора. Синтаксический анализатор можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.

В лингвистике корпусов древовидные группы используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько часто используются различные грамматические структуры. Берега деревьев также служат доказательством охвата и поддерживают открытие новых, неожиданных грамматических явлений.

Еще одно применение «берегов дерева» в теоретической лингвистике и психолингвистике - это свидетельства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты, выясняя, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение о формировании других, и попытаться понять, как говорящие и писатели принимают решения, составляя предложения. Исследование взаимодействия особенно плодотворно, так как в корпус добавляются дополнительные уровни аннотации, например семантическая, прагматическая. Затем можно оценить влияние несинтаксических явлений на выбор грамматики.

Семантические деревья [ править ]

Банк семантического дерева - это набор предложений на естественном языке, помеченных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank , разработанный в Университете Гронингена и аннотированный с использованием теории представления дискурса . Примером неглубокого семантического банка дерева является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .

Язык	Treebank	Семантический формализм	Распространение / Лицензия
Китайский	Китайские универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
английский	Банк представления абстрактного смысла (AMR)	Глубокая семантика	?
английский	FrameNet	Мелкая семантика	?
английский	Универсальная концептуальная когнитивная аннотация (UCCA)	Глубокая семантика	?
английский	Дерево команд роботов ^[5]	Глубокая семантика	?
английский	Groningen Meaning Bank	Глубокая семантика	?
английский	Проект DeepBank	Глубокая семантика	?
английский	Анализируемый корпус семантики Treebank	Глубокая семантика	?
английский	RoboCup Corpus	Глубокая семантика	?
английский	Геозапросы	Глубокая семантика	?
английский	PropBank	Семантика PropBank	разные лицензии
Финский	Финские универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
Финский	Финский PropBank	Семантика PropBank	CC BY-SA 4.0
Французский	Французские универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
Немецкий	Немецкие универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
Итальянский	Итальянские универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
португальский	Португальский PortLex	Семантика PropBank	?
португальский	Португальские универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
испанский	Испанские универсальные предложения	Семантика PropBank	CC BY-NC-SA 3.0 США
турецкий	Турецкий PropBank	Семантика PropBank	CC BY-NC-SA 4.0

Деревья глубокого синтаксиса [ править ]

Глубокий синтаксический банк дерева - это банк дерева, лежащий на стыке синтаксиса и семантики, где структура представления может быть интерпретирована как граф, представляющий предмет бесконечных фраз, извлечения, конструкции it-clef, многоточия общего предмета и так далее. (расширить)

Зависимости AnCora UPF
Проект Deep Sequoia

Синтаксические банки деревьев [ править ]

Многие синтаксические банки деревьев были разработаны для самых разных языков:

Язык	Treebank	Синтаксический формализм	Распространение / Лицензия
Абаза	Универсальные зависимости , ATB	Зависимость	CC BY-SA
африкаанс	Универсальные зависимости , AfriBooms	Зависимость	CC BY-SA
Аккадский	Универсальные зависимости , PISANDUB	Зависимость	CC BY-SA
албанский	Универсальные зависимости , TSA	Зависимость	CC BY-SA
Амхарский	Универсальные зависимости , ATT	Зависимость	CC BY-SA
Древнегреческий	Универсальные зависимости , Персей	Зависимость	CC BY-NC-SA
Древнегреческий	Универсальные зависимости , PROIEL	Зависимость	CC BY-NC-SA
Греческий (древний)	Древнегреческий банк деревьев зависимости ^[6]^[7]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Греческий (древний)	Берег деревьев PROIEL ^[8]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
арабский	Columbia Arabic Treebank (CATiB)	Зависимость	Консорциум лингвистических данных
арабский	Пражский арабский филиал Treebank (PADT)	Зависимость	Консорциум лингвистических данных
арабский	Универсальные зависимости , NYUAD	Зависимость	CC BY-SA
арабский	Универсальные зависимости , PADT	Зависимость	CC BY-NC-SA
арабский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
арабский	Penn Arabic Treebank	Структура фразы	Консорциум лингвистических данных
Армянский	Универсальные зависимости , ArmTDP	Зависимость	CC BY-SA
Ассирийский (неоарамейский)	Универсальные зависимости , AS	Зависимость	CC BY-SA
Бамбара	Универсальные зависимости , CRB	Зависимость	CC BY-SA
Баскский	Универсальные зависимости , BDT	Зависимость	CC BY-NC-SA
Белорусский	Универсальные зависимости , HSE	Зависимость	CC BY-SA
Бходжпури	Универсальные зависимости , BhEn	Зависимость	CC BY-SA
Бходжпури	Универсальные зависимости , BHTB	Зависимость	CC BY-SA
Бретонский	Универсальные зависимости , KEB	Зависимость	CC BY-SA
болгарский	Универсальные зависимости , BTB	Зависимость	CC BY-NC-SA
болгарский	BulTreeBank	HPSG	Свободно доступен для исследования
Бурятский	Универсальные зависимости , BDT	Зависимость	CC BY-SA
Кантонский	Универсальные зависимости , HK	Зависимость	CC BY-SA
Каталонский	Cat3LB	Структура фразы	Свободно доступен для исследования
Каталонский	Универсальные зависимости , AnCora	Зависимость	GPL
Китайский	Sinica Treebank	Грамматика падежа	Не в свободном доступе
Китайский	Универсальные зависимости , CFL	Зависимость	CC BY-SA
Китайский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
Китайский	Универсальные зависимости , GSDSimp	Зависимость	CC BY-SA
Китайский	Универсальные зависимости , HK	Зависимость	CC BY-SA
Китайский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Китайский	Penn Chinese Treebank	Структура фразы	Консорциум лингвистических данных
Китайский	Китайский банк деревьев зависимости	Зависимость	Консорциум лингвистических данных
Арабский (классический)	Quranic Arabic Dependency Treebank (QADT) ( Корпус Коранического арабского языка )	Зависимость	Открытый исходный код ( общедоступная лицензия GNU )
Классический армянский	Берег деревьев PROIEL ^[8]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Коптский	Универсальные зависимости , коптский скрипторий	Зависимость	CC BY
хорватский	Хорватский банк зависимых деревьев	Зависимость	Открытый исходный код ( лицензия Creative Commons )
хорватский	Универсальные зависимости , SET	Зависимость	CC BY-SA
Чешский	Пражский филиал Treebank	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Чешский	Универсальные зависимости , CAC	Зависимость	CC BY-SA
Чешский	Универсальные зависимости , CLTT	Зависимость	CC BY-SA
Чешский	Универсальные зависимости , FicTree	Зависимость	CC BY-NC-SA
Чешский	Универсальные зависимости , PDT	Зависимость	CC BY-NC-SA
Чешский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Датский	Датский Dependency Treebank	Зависимость	Открытый исходный код ( общедоступная лицензия GNU )
Датский	Arboretum: синтаксический древовидный корпус датского языка.	Структура фразы	Плата за лицензию
Датский	Универсальные зависимости , ДДТ	Зависимость	CC BY-SA
Датский	Универсальные зависимости , DTB	Зависимость	CC BY-SA
нидерландский язык	Разговорный голландский корпус (CGN)	Структура фразы	Плата за лицензию
нидерландский язык	Универсальные зависимости , Альпино	Зависимость	CC BY-SA
нидерландский язык	Универсальные зависимости , LassySmall	Зависимость	CC BY-SA
нидерландский язык	LASSY маленький и большой	Зависимость	Плата за лицензию
нидерландский язык	Альпино Treebank	Зависимость	Открытый исходный код ( общедоступная лицензия GNU )
английский	CCGbank	Комбинаторно-категориальная грамматика	Консорциум лингвистических данных
английский	LinGO Redwoods	HPSG	?
английский	Lancaster Parsed Corpus	Структура фразы	?
английский	Пражский английский Dependency Treebank	Зависимость	Консорциум лингвистических данных
английский	Универсальные зависимости , BhEn	Зависимость	CC BY-SA
английский	Универсальные зависимости , ESL	Зависимость	CC BY-SA
английский	Универсальные зависимости , EWT	Зависимость	CC BY-SA
английский	Универсальные зависимости , ГУМ	Зависимость	CC BY-NC-SA
английский	Универсальные зависимости , GUMReddit	Зависимость	CC BY
английский	Универсальные зависимости , LinES	Зависимость	CC BY-NC-SA
английский	Универсальные зависимости , ParTUT	Зависимость	CC BY-NC-SA
английский	Универсальные зависимости , местоимения	Зависимость	CC BY-SA
английский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
английский	Анализируемый корпус семантики Treebank	Структура фразы	Открытый исходный код ( лицензия Creative Commons )
английский	Кристин Корпус	Структура фразы	Свободно доступен для исследования
английский	Люси Корпус	Структура фразы	Свободно доступен для исследования
английский	Сюзанна Корпус	Структура фразы	Свободно доступен для исследования
английский	BLLIP WSJ корпус	Структура фразы	Консорциум лингвистических данных
английский	Tübingen Treebank of English / Spontaneous Speech (TüBa-E / S)	HPSG	Свободно доступен для исследования
английский	Диахронический корпус современного разговорного английского языка (DCPSE)	Структура фразы	Плата за лицензию
английский	Британский компонент Международного корпуса английского языка (ICE-GB)	Структура фразы	Плата за лицензию
английский	Зависимый банк PARC 700	Зависимость	?
английский	Yahoo Query Treebank	Зависимость	Свободно доступен для исследования
английский	Penn Treebank	Структура фразы	Консорциум лингвистических данных
английский	Multi-Treebank	Структура фразы	Доступно в Интернете для сравнения
английский	ДЕТИ Корпус Brown Eve с аннотацией зависимостей	Зависимость	Открытый исходный код ( лицензия Creative Commons )
английский	SMULTRON - Параллельный банк деревьев EN-DE-SV	Структура фразы	Свободно доступен для исследования
Эрзя	Универсальные зависимости , JR	Зависимость	CC BY-SA
эстонский	Дендрарий	Структура фразы	?
эстонский	Синтаксически проанализированный и устраненный неоднозначный текстовый корпус	Зависимость	Свободно доступен для исследования
эстонский	Универсальные зависимости , EDT	Зависимость	CC BY-NC-SA
эстонский	Универсальные зависимости , EWT	Зависимость	CC BY-NC-SA
Фарерские острова	Универсальные зависимости , FarPaHC	Зависимость	CC BY-SA
Фарерские острова	Универсальные зависимости , OFT	Зависимость	CC BY-SA
Финский	Банк зависимых деревьев Турку (TDT)	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Финский	Универсальные зависимости , FTB	Зависимость	CC BY
Финский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Финский	Универсальные зависимости , TDT	Зависимость	CC BY-SA
Французский (разговорный)	Рапсодия	Зависимость и макросинтаксическая аннотация	Открытый исходный код ( лицензия Creative Commons )
Французский	L'Arboratoire	Структура фразы	?
Французский	Универсальные зависимости , CrapBank	Зависимость	CC BY-SA
Французский	Универсальные зависимости , FQB	Зависимость	GPL
Французский	Универсальные зависимости , FTB	Зависимость	GPL
Французский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
Французский	Универсальные зависимости , ParTUT	Зависимость	CC BY-NC-SA
Французский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Французский	Универсальные зависимости , Секвойя	Зависимость	GPL
Французский	Универсальные зависимости , разговорный	Зависимость	CC BY-SA
Французский	Париж 7	Структура фразы	Свободно доступен для исследования
Французский	Free French Treebank	Структура фразы	Лицензия с открытым исходным кодом LGPL-LR
Французский	Секвойя Treebank	Структура фразы и зависимость	Лицензия с открытым исходным кодом LGPL-LR
Галицкий	Универсальные зависимости , CTG	Зависимость	CC BY-NC-SA
Галицкий	Универсальные зависимости , TreeGal	Зависимость	GPL
Немецкий	Hamburg Dependency Treebank (HDT)	Зависимость	Свободно доступен для исследования
Немецкий	Универсальные зависимости , GSD	Зависимость	CC BY-SA
Немецкий	Универсальные зависимости , LIT	Зависимость	CC BY-NC-SA
Немецкий	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Немецкий	SMULTRON - Параллельный банк деревьев EN-DE-SV	Структура фразы	Свободно доступен для исследования
Немецкий	НЕГРА	Структура фразы	Свободно доступен для исследования
Немецкий	ТИГР	Структура фразы	Свободно доступен для исследования
Немецкий	Tübingen Treebank of German / Spontaneous Speech (TüBa-D / S)	Структура фразы	Свободно доступен для исследования
Немецкий	Tübingen Treebank письменного немецкого языка (TüBa-D / Z)	Структура фразы	Свободно доступен для исследования
Немецкий	Тюбингенский частично разобранный корпус письменного немецкого языка (TüPP-D / Z)	Структура фразы	Плата за лицензию
Готика	Берег деревьев PROIEL ^[8]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Готика	Универсальные зависимости , PROIEL	Зависимость	CC BY-NC-SA
Греческий	Банк деревьев зависимости от Греции	Зависимость	Не в свободном доступе
Греческий	Универсальные зависимости , GDT	Зависимость	CC BY-NC-SA
иврит	Универсальные зависимости , HTB	Зависимость	CC BY-NC-SA
иврит	Древовидный банк зависимостей иврита	Зависимость	Открытый исходный код ( общедоступная лицензия GNU )
Хинди английский	Универсальные зависимости , HIENCS	Зависимость	CC BY-SA
хинди	Универсальные зависимости , HDTB	Зависимость	CC BY-NC-SA
хинди	Универсальные зависимости , PUD	Зависимость	CC BY-SA
хинди	AnnCorra	Зависимость	?
Английский (исторический)	Пенн Разбор корпусов исторического английского языка ;	Структура фразы	Консорциум лингвистических данных (по состоянию на апрель 2020 г.)
Английский (исторический)	Йорк-Торонто-Хельсинки Разбираемый корпус староанглийской прозы (YCOE)	Структура фразы	Свободно доступен для исследования
Французский (исторический)	Корпус MCVF	Структура фразы	Свободно доступен для исследования
Португальский (исторический)	Тихо Браге корпус	Структура фразы	?
Венгерский	Универсальные зависимости , Сегед	Зависимость	CC BY-NC-SA
Венгерский	Венгерский Treebank	Структура фразы	?
исландский	IcePaHC - исландский анализируемый исторический корпус	Структура фразы	Открытый исходный код ( Стандартная общественная лицензия ограниченного применения GNU )
исландский	Универсальные зависимости , IcePaHC	Зависимость	CC BY-SA
исландский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
индонезийский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
индонезийский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Ирландский	Универсальные зависимости , IDT	Зависимость	CC BY-SA
Итальянский	ISST - итальянский банк синтаксически-семантических деревьев	Структура фразы и зависимость	Плата за лицензию
Итальянский	MIDT (Объединенный банк деревьев итальянских зависимостей), полученный в результате слияния и согласования банков деревьев TUT и ISST-CoNLL / TANL	зависимость	Свободно доступен для исследования
Итальянский	VIT - Venice Italian Treebank	Структура фразы и зависимость	Плата за лицензию
Итальянский	Универсальные зависимости , ISDT	Зависимость	CC BY-NC-SA
Итальянский	Универсальные зависимости , ParTUT	Зависимость	CC BY-NC-SA
Итальянский	Универсальные зависимости , PoSTWITA	Зависимость	CC BY-NC-SA
Итальянский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Итальянский	Универсальные зависимости , TWITTIRO	Зависимость	CC BY-SA
Итальянский	Универсальные зависимости , VIT	Зависимость	CC BY-NC-SA
Итальянский	Итальянский синтаксико-семантический банк деревьев для общей задачи CoNLL-2007 (ISST-CoNLL)	зависимость	Свободно доступен для исследования
Итальянский	SUT - Siena University Treebank	?	?
Итальянский	TUT - Treebank Туринского университета	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Итальянский	ISDT (итальянский Stanford Dependency Treebank)	зависимость	Свободно доступен для исследования
Японский	Киотский текстовый корпус	?	?
Японский	Универсальные зависимости , BCCWJ	Зависимость	CC BY-NC-SA
Японский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
Японский	Универсальные зависимости , KTC	Зависимость	CC BY-SA
Японский	Универсальные зависимости , современные	Зависимость	CC BY-NC-ND
Японский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Японский	Keyaki Treebank	Структура фразы	Открытый исходный код ( лицензия Creative Commons )
Японский	Tübingen Treebank of Japanese / Spontaneous Speech (TüBa-J / S)	Структура фразы	Свободно доступен для исследования
Японский	Корпус зависимостей ATR	Зависимость	?
Карельский	Универсальные зависимости , ККПП	Зависимость	CC BY-SA
Казахский	Универсальные зависимости , KTB	Зависимость	CC BY-SA
Коми Пермяк	Универсальные зависимости , UH	Зависимость	CC BY-SA
Коми Зырян	Универсальные зависимости , IKDP	Зависимость	CC BY-SA
Коми Зырян	Универсальные зависимости , Решетка	Зависимость	CC BY-SA
Корейский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
Корейский	Универсальные зависимости , Kaist	Зависимость	CC BY-SA
Корейский	Универсальные зависимости , Penn	Зависимость	CC BY-SA
Корейский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Корейский	Универсальные зависимости , Седжонг	Зависимость	CC BY-SA
Корейский	Корейский Treebank	Структура фразы	Консорциум лингвистических данных
Курманджи	Универсальные зависимости , MG	Зависимость	CC BY-SA
латинский	Универсальные зависимости , ITTB	Зависимость	CC BY-NC-SA
латинский	Универсальные зависимости , LLCT	Зависимость	CC BY-SA
латинский	Универсальные зависимости , Персей	Зависимость	CC BY-NC-SA
латинский	Универсальные зависимости , PROIEL	Зависимость	CC BY-NC-SA
латинский	Индекс Thomisticus Treebank	Зависимость	Открытый исходный код ( лицензия Creative Commons )
латинский	Берег деревьев PROIEL ^[8]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
латинский	Банк дерева латинских зависимостей ^[9]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Латышский	Универсальные зависимости , LVTB	Зависимость	CC BY-SA
Литовский	Универсальные зависимости , ALKSNIS	Зависимость	CC BY-SA
Литовский	Универсальные зависимости , HSE	Зависимость	CC BY-SA
Ливви	Универсальные зависимости , ККПП	Зависимость	CC BY-SA
Магахи	Универсальные зависимости , MGTB	Зависимость	CC BY-SA
Мальтийский	Универсальные зависимости , MUDT	Зависимость	CC BY-SA
Маратхи	Универсальные зависимости , UFAL	Зависимость	CC BY-SA
Мбья гуарани	Универсальные зависимости , Дули	Зависимость	CC BY-NC-SA
Мбья гуарани	Универсальные зависимости , Томас	Зависимость	CC BY-NC-SA
Средний ирландский	Универсальные зависимости , CritMITB	Зависимость	CC BY-SA
Средний ирландский	Универсальные зависимости , DipMITB	Зависимость	CC BY-SA
Мокша	Универсальные зависимости , JR	Зависимость	CC BY-SA
Найя	Универсальные зависимости , NSC	Зависимость	CC BY-SA
Северный саамский	Универсальные зависимости , Giella	Зависимость	CC BY-SA
норвежский язык	Инфраструктура банка деревьев INESS	LFG	?
норвежский язык	Универсальные зависимости , Bokmaal	Зависимость	CC BY-SA
норвежский язык	Универсальные зависимости , нюнорск	Зависимость	CC BY-SA
норвежский язык	Универсальные зависимости , NynorskLIA	Зависимость	CC BY-SA
Старославянский	Универсальные зависимости , PROIEL	Зависимость	CC BY-NC-SA
Старославянский	TOROT Treebank ^[8]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Старофранцузский	Универсальные зависимости , SRCMF	Зависимость	CC BY-NC-SA
Древнерусский	Универсальные зависимости , RNC	Зависимость	CC BY-SA
Древнерусский	Универсальные зависимости , TOROT	Зависимость	CC BY-NC-SA
Древнерусский	TOROT Treebank ^[8]	Зависимость	Открытый исходный код ( лицензия Creative Commons )
Персидский	Банк деревьев персидской зависимости (PerDT)	Зависимость	Свободно доступен для исследования
Персидский	PerTreeBank	HPSG	Свободно доступен для исследования
Персидский	Универсальные зависимости , Сераджи	Зависимость	CC BY-SA
Польский	Treebank / Test Suite для польского языка	HPSG	?
Польский	Универсальные зависимости , LFG	Зависимость	GPL
Польский	Универсальные зависимости , PDB	Зависимость	CC BY-NC-SA
Польский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Польский	Складница	Структура фразы и зависимость	Открытый исходный код ( общедоступная лицензия GNU )
португальский	Универсальные зависимости , Bosque	Зависимость	CC BY-SA
португальский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
португальский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
португальский	Projecto Floresta Sintá (c) tica	Зависимость , структура фразы	Открытый исходный код ( общедоступная лицензия GNU )
румынский	Румынский Dependency Treebank	Зависимость	?
румынский	Универсальные зависимости , нестандартные	Зависимость	CC BY-SA
румынский	Универсальные зависимости , RRT	Зависимость	CC BY-SA
румынский	Универсальные зависимости , SiMoNERo	Зависимость	CC BY-SA
русский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
русский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
русский	Универсальные зависимости , SynTagRus	Зависимость	CC BY-NC-SA
русский	Универсальные зависимости , Тайга	Зависимость	CC BY-SA
русский	SynTagRus Dependency Treebank ( Русский национальный корпус )	Зависимость	Свободно доступен для исследования
санскрит	Универсальные зависимости , UFAL	Зависимость	CC BY-SA
санскрит	Универсальные зависимости , Ведический	Зависимость	CC BY-SA
Шотландский гэльский	Универсальные зависимости , ARCOSG	Зависимость	CC BY-SA
сербский	Универсальные зависимости , SET	Зависимость	CC BY-SA
Синдхи	Универсальные зависимости , MazharDootio	Зависимость	CC BY-SA
Скольт-саамский	Универсальные зависимости , Giellagas	Зависимость	CC BY-SA
словацкий	Универсальные зависимости , SNK	Зависимость	CC BY-SA
Словенский	Словенский Dependency Treebank	Зависимость	Свободно доступен для исследования
словенский	Универсальные зависимости , SSJ	Зависимость	CC BY-NC-SA
словенский	Универсальные зависимости , SST	Зависимость	CC BY-NC-SA
испанский	Cast3LB	Структура фразы и зависимость	Свободно доступен для исследования
испанский	Универсальные зависимости , AnCora	Зависимость	GPL
испанский	Универсальные зависимости , GSD	Зависимость	CC BY-SA
испанский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
испанский	UAM Treebank испанского языка	Структура фразы	Свободно доступен для исследования
Шведский	Talbanken05	Структура фразы и зависимость	Свободно доступен для исследования
Шведский	Шведский Treebank	Структура фразы	Свободно доступен для исследования
Шведский	Универсальные зависимости , LinES	Зависимость	CC BY-NC-SA
Шведский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
Шведский	Универсальные зависимости , Talbanken	Зависимость	CC BY-SA
Шведский	SMULTRON - Параллельный банк деревьев EN-DE-SV	Структура фразы	Свободно доступен для исследования
Шведский язык жестов	Универсальные зависимости , SSLC	Зависимость	CC BY-SA
Швейцарский немецкий	Универсальные зависимости , UZH	Зависимость	CC BY-SA
Тагальский	Универсальные зависимости , TRG	Зависимость	CC BY-SA
Тагальский	Универсальные зависимости , Угнаян	Зависимость	CC BY-NC-SA
Тамильский	Универсальные зависимости , TTB	Зависимость	CC BY-NC-SA
телугу	Универсальные зависимости , MTG	Зависимость	CC BY-SA
Тайский	NAiST Thai Treebank	Зависимость	Открытый исходный код ( общедоступная лицензия GNU )
Тайский	Универсальные зависимости , PUD	Зависимость	CC BY-SA
турецкий	METU-Sabanci Turkish Treebank	Зависимость	Свободно доступен для исследования
турецкий	Универсальные зависимости , BOUN	Зависимость	CC BY-SA
турецкий	Универсальные зависимости , ГБ	Зависимость	CC BY-SA
турецкий	Универсальные зависимости , IMST	Зависимость	CC BY-NC-SA
турецкий	Универсальные зависимости , PUD	Зависимость	CC BY-SA
украинец	Институт украинского языка, НПО Золотой стандарт	Зависимость	Открытый исходный код ( лицензия Creative Commons )
украинец	Универсальные зависимости , МЕ	Зависимость	CC BY-NC-SA
Верхнесорбский	Универсальные зависимости , UFAL	Зависимость	CC BY-SA
Урду	NU-FAST Treebank	Структура фразы	Контакты в компании Computational Learning Strategies & Practices
Урду	Банк деревьев URDU.KON-TB	Структура фраз и гиперзависимостей	Контакты в компании Computational Learning Strategies & Practices
Урду	Универсальные зависимости , UDTB	Зависимость	CC BY-NC-SA
Уйгурский	Универсальные зависимости , UDT	Зависимость	CC BY-SA
вьетнамский	Универсальные зависимости , ВТБ	Зависимость	CC BY-SA
вьетнамский	Вьетнамский Treebank	Структура фразы	Свободно доступен для исследования
вьетнамский	Вьетнамский банк зависимых деревьев	Зависимость	Свободно доступен для исследования
Варлпири	Универсальные зависимости , UFAL	Зависимость	CC BY-SA
валлийский	Универсальные зависимости , CCG	Зависимость	CC BY-SA
Волоф	Универсальные зависимости , WTB	Зависимость	CC BY-SA
Йоруба	Универсальные зависимости , YTB	Зависимость	CC BY-SA

Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотаций для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества разных корпусов деревьев. Например, универсальный подход к аннотации для дерева зависимостей; ^[10] и универсальный подход к аннотации для древовидных структур фраз. ^[11]

Инструменты поиска [ править ]

Один из ключевых способов извлечения доказательств из банка деревьев - поисковые инструменты. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Сложность пользовательских интерфейсов варьируется от систем запросов на основе выражений, предназначенных для компьютерных программистов, до сред полного исследования, предназначенных для лингвистов общего профиля. Wallis (2008) подробно обсуждает принципы поиска берегов деревьев и рассматривает современное состояние. ^[12]

Грамматика структуры фраз
- CorpusSearch
- fsq
- ICECUP III ; ICECUP IV
- Лингвистическая база данных (LDB)
- MonaSearch
- tgrep; tgrep2
- Tregex
- VIQTORYA
Грамматика зависимостей
- DTAG
- Netgraph
- Санчай
- TrEd
- Грю-матч
Грамматика зависимостей и / или грамматика структуры фраз
- ANNIS (многослойный)
- PML-TQ (многослойный)
- TigerSearch (однослойный)
- INESS-Поиск
Другие
- GSearch
- Поисковая машина лингвиста
- Milhafre: поисковая система для португальского банка деревьев
- Татоеба

См. Также [ править ]

Текстовый корпус
Грамматика структуры фраз
Грамматика зависимостей
Парсинг
Пометка части речи

Ссылки [ править ]

^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Вайли.
Перейти ↑ Sampson, G. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Франкфурт-на-Майне: Питер Ланг, стр. 157-184
^ Хайтао Лю, Вэй Хуанг - Синтаксис зависимости китайского языка для древовидного банка , опубликованный Коммуникационным университетом Китая , опубликованный (онлайн) Ассоциацией компьютерной лингвистики - доступ 2020-2-4
^ Кюблер, Сандра; Макдональд, Райан; Нивр, Иоаким (18 декабря 2008 г.). «Анализ зависимостей». Синтез лекций по технологиям человеческого языка . 2 (1): 1–127. DOI : 10.2200 / s00169ed1v01y200901hlt002 .
^ Kais Dukes (2013) Семантическая аннотация роботизированных пространственных команд . Конференция по языкам и технологиям (LTC). Познань, польша.
^ Челано, Джузеппе Г.А. 2014. Рекомендации по аннотации Древнегреческого банка деревьев зависимости 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
^ Мамбрини, Ф. 2016. Древнегреческий банк деревьев зависимости: лингвистическая аннотация в учебной среде. В: Бодар, Дж. И Романелло, М. (ред.) Цифровая классика вне эхо-камеры: преподавание, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. DOI : 10,5334 / bat.f
^ a b c d e f Даг Хауг. 2015. Treebank в историко-лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджамины, 188-202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf .
^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских берегов деревьев (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
^ McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; и другие. «Универсальная аннотация зависимостей для многоязычного синтаксического анализа». Материалы ACL 2013 .CS1 maint: несколько имен: список авторов ( ссылка )
^ Хан, AL-F; Вонг, Д. Ф.; Чао, LS; Lu, Y .; Хе, Л. и Тиан, Л. (2014). «Универсальный набор тегов фраз для многоязычных групп деревьев» (PDF) . Материалы CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . DOI : 10.1007 / 978-3-319-12277-9_22 .
^ Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.

[1] Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Вайли.

[2] Перейти ↑ Sampson, G. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Франкфурт-на-Майне: Питер Ланг, стр. 157-184

[3] Хайтао Лю, Вэй Хуанг - Синтаксис зависимости китайского языка для древовидного банка , опубликованный Коммуникационным университетом Китая , опубликованный (онлайн) Ассоциацией компьютерной лингвистики - доступ 2020-2-4

[4] Кюблер, Сандра; Макдональд, Райан; Нивр, Иоаким (18 декабря 2008 г.). «Анализ зависимостей». Синтез лекций по технологиям человеческого языка . 2 (1): 1–127. DOI : 10.2200 / s00169ed1v01y200901hlt002 .

[5] Kais Dukes (2013) Семантическая аннотация роботизированных пространственных команд . Конференция по языкам и технологиям (LTC). Познань, польша.

[6] Челано, Джузеппе Г.А. 2014. Рекомендации по аннотации Древнегреческого банка деревьев зависимости 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines

[7] Мамбрини, Ф. 2016. Древнегреческий банк деревьев зависимости: лингвистическая аннотация в учебной среде. В: Бодар, Дж. И Романелло, М. (ред.) Цифровая классика вне эхо-камеры: преподавание, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. DOI : 10,5334 / bat.f

[haug-8] Даг Хауг. 2015. Treebank в историко-лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджамины, 188-202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf .

[9] Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских берегов деревьев (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf

[10] McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; и другие. «Универсальная аннотация зависимостей для многоязычного синтаксического анализа». Материалы ACL 2013 .CS1 maint: несколько имен: список авторов ( ссылка )

[11] Хан, AL-F; Вонг, Д. Ф.; Чао, LS; Lu, Y .; Хе, Л. и Тиан, Л. (2014). «Универсальный набор тегов фраз для многоязычных групп деревьев» (PDF) . Материалы CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . DOI : 10.1007 / 978-3-319-12277-9_22 .

[12] Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.

[1]