Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Большинство синтаксических банков дерева аннотируют варианты либо структуры фразы (слева), либо структуры зависимостей (справа).

В лингвистике , Treebank является разобранный текст корпус , который помечает синтаксической или семантической приговор структуры. Создание анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1] Использование данных банка деревьев имеет важное значение с момента появления первого крупномасштабного банка деревьев Penn Treebank., был опубликован. Однако, несмотря на то, что они зародились в компьютерной лингвистике, ценность береговых деревьев становится все более широко признанной в лингвистических исследованиях в целом. Например, аннотированные данные банка деревьев сыграли решающую роль в синтаксических исследованиях, чтобы проверить лингвистические теории структуры предложений на большом количестве встречающихся в природе примеров.

Этимология [ править ]

Термин « древовидный банк» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что и синтаксическая, и семантическая структура обычно композиционно представлены в виде древовидной структуры . Термин « проанализированный корпус» часто используется как синоним термина «древовидный банк», с акцентом на примат предложений, а не деревьев.

Строительство [ править ]

Древовидные группы часто создаются поверх корпуса, который уже был помечен тегами части речи . В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка - это трудоемкий проект, на который команды дипломированных лингвистов могут уйти несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка дерева.

Пример дерева структуры фраз для Джон любит Мэри
Гибридное дерево интересов / зависимостей из Коранического арабского корпуса

Некоторые группы деревьев следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее конкретными в теории. Тем не менее, можно выделить две основные группы: банки деревьев, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB ), и те, которые аннотируют структуру зависимостей (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank ).

Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ для Джон любит Мэри , показанный на рисунке справа, может быть представлен в текстовом файле простыми помеченными скобками, как это (после нотации Penn Treebank ):

(S (НП (НП Джон)) (ВП (любит ВПЗ) (НП (ННП Марии))) (..))

Этот тип представления популярен, потому что он не требует больших ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают специфичные для дерева схемы XML , пронумерованные отступы и различные типы обозначений противостояния.

Приложения [ править ]

С точки зрения вычислительной лингвистики [3] , древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. [4]Большинство вычислительных систем используют данные золотого стандарта дерева деревьев. Тем не менее, автоматически анализируемый корпус, который не исправляется лингвистами-людьми, все еще может быть полезен. Он может предоставить свидетельство частоты правил для анализатора. Синтаксический анализатор можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.

В лингвистике корпусов древовидные группы используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько часто используются различные грамматические структуры. Берега деревьев также служат доказательством охвата и поддерживают открытие новых, неожиданных грамматических явлений.

Еще одно применение «берегов дерева» в теоретической лингвистике и психолингвистике - это свидетельства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты, выясняя, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение о формировании других, и попытаться понять, как говорящие и писатели принимают решения, составляя предложения. Исследование взаимодействия особенно плодотворно, так как в корпус добавляются дополнительные уровни аннотации, например семантическая, прагматическая. Затем можно оценить влияние несинтаксических явлений на выбор грамматики.

Семантические деревья [ править ]

Банк семантического дерева - это набор предложений на естественном языке, помеченных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank , разработанный в Университете Гронингена и аннотированный с использованием теории представления дискурса . Примером неглубокого семантического банка дерева является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .

Деревья глубокого синтаксиса [ править ]

Глубокий синтаксический банк дерева - это банк дерева, лежащий на стыке синтаксиса и семантики, где структура представления может быть интерпретирована как граф, представляющий предмет бесконечных фраз, извлечения, конструкции it-clef, многоточия общего предмета и так далее. (расширить)

  • Зависимости AnCora UPF
  • Проект Deep Sequoia

Синтаксические банки деревьев [ править ]

Многие синтаксические банки деревьев были разработаны для самых разных языков:

Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотаций для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества разных корпусов деревьев. Например, универсальный подход к аннотации для дерева зависимостей; [10] и универсальный подход к аннотации для древовидных структур фраз. [11]

Инструменты поиска [ править ]

Один из ключевых способов извлечения доказательств из банка деревьев - поисковые инструменты. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Сложность пользовательских интерфейсов варьируется от систем запросов на основе выражений, предназначенных для компьютерных программистов, до сред полного исследования, предназначенных для лингвистов общего профиля. Wallis (2008) подробно обсуждает принципы поиска берегов деревьев и рассматривает современное состояние. [12]

  • Грамматика структуры фраз
    • CorpusSearch
    • fsq
    • ICECUP III ; ICECUP IV
    • Лингвистическая база данных (LDB)
    • MonaSearch
    • tgrep; tgrep2
    • Tregex
    • VIQTORYA
  • Грамматика зависимостей
    • DTAG
    • Netgraph
    • Санчай
    • TrEd
    • Грю-матч
  • Грамматика зависимостей и / или грамматика структуры фраз
    • ANNIS (многослойный)
    • PML-TQ (многослойный)
    • TigerSearch (однослойный)
    • INESS-Поиск
  • Другие
    • GSearch
    • Поисковая машина лингвиста
    • Milhafre: поисковая система для португальского банка деревьев
    • Татоеба

См. Также [ править ]

  • Текстовый корпус
  • Грамматика структуры фраз
  • Грамматика зависимостей
  • Парсинг
  • Пометка части речи

Ссылки [ править ]

  1. ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Вайли.
  2. Перейти ↑ Sampson, G. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Франкфурт-на-Майне: Питер Ланг, стр. 157-184
  3. ^ Хайтао Лю, Вэй Хуанг - Синтаксис зависимости китайского языка для древовидного банка , опубликованный Коммуникационным университетом Китая , опубликованный (онлайн) Ассоциацией компьютерной лингвистики - доступ 2020-2-4
  4. ^ Кюблер, Сандра; Макдональд, Райан; Нивр, Иоаким (18 декабря 2008 г.). «Анализ зависимостей». Синтез лекций по технологиям человеческого языка . 2 (1): 1–127. DOI : 10.2200 / s00169ed1v01y200901hlt002 .
  5. ^ Kais Dukes (2013) Семантическая аннотация роботизированных пространственных команд . Конференция по языкам и технологиям (LTC). Познань, польша.
  6. ^ Челано, Джузеппе Г.А. 2014. Рекомендации по аннотации Древнегреческого банка деревьев зависимости 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  7. ^ Мамбрини, Ф. 2016. Древнегреческий банк деревьев зависимости: лингвистическая аннотация в учебной среде. В: Бодар, Дж. И Романелло, М. (ред.) Цифровая классика вне эхо-камеры: преподавание, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. DOI : 10,5334 / bat.f
  8. ^ a b c d e f Даг Хауг. 2015. Treebank в историко-лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджамины, 188-202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf .
  9. ^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских берегов деревьев (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  10. ^ McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; и другие. «Универсальная аннотация зависимостей для многоязычного синтаксического анализа». Материалы ACL 2013 .CS1 maint: несколько имен: список авторов ( ссылка )
  11. ^ Хан, AL-F; Вонг, Д. Ф.; Чао, LS; Lu, Y .; Хе, Л. и Тиан, Л. (2014). «Универсальный набор тегов фраз для многоязычных групп деревьев» (PDF) . Материалы CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . DOI : 10.1007 / 978-3-319-12277-9_22 .
  12. ^ Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.