Банк деревьев


Из Википедии, свободной энциклопедии
  (Перенаправлено из Penn Treebank )
Перейти к навигации Перейти к поиску
Большинство синтаксических древовидных банков аннотируют варианты структуры фразы (слева) или структуры зависимостей (справа).

В лингвистике банк деревьев представляет собой анализируемый корпус текста , который аннотирует синтаксическую или семантическую структуру предложения . Построение анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1]

Этимология

Термин « банк деревьев» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что как синтаксическая, так и семантическая структура обычно композиционно представляются в виде древовидной структуры . Термин « разобранный корпус » часто используется взаимозаменяемо с термином «банк деревьев» с акцентом на первичность предложений, а не деревьев.

Строительство

Банки деревьев часто создаются поверх корпуса, который уже был аннотирован тегами части речи . В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Банки деревьев могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор присваивает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, корректируют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка является трудоемким проектом, который может занять у группы дипломированных лингвистов несколько лет. Уровень детализации аннотации и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка деревьев.

Пример дерева структуры фразы для Джон любит Мэри
Гибридное дерево избирательных округов / зависимостей из арабского корпуса Корана

Некоторые банки деревьев следуют определенной лингвистической теории в своих синтаксических аннотациях (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее специфичными для теории. Однако можно выделить две основные группы: древовидные банки, которые аннотируют структуру фразы (например, Penn Treebank или ICE-GB ), и те, которые аннотируют структуру зависимостей (например, пражский древовидный банк зависимостей или коранический арабский древовидный банк зависимостей ).

Важно прояснить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ слова « Джон любит Мэри », показанный на рисунке справа, может быть представлен простыми помеченными скобками в текстовом файле, подобно этому (в соответствии с нотацией Penn Treebank ):

(С (НП (ННП Джон)) (ВП (ВПЗ любит) (НП (ННП Мары))) (. . .))

Этот тип представления популярен, поскольку требует мало ресурсов, а древовидная структура относительно легко читается без использования программных средств. Однако по мере того, как корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают XML - схемы, специфичные для банка деревьев, нумерованные отступы и различные типы нотаций зазоров.

Приложения

С точки зрения вычислительной лингвистики [3] банки деревьев использовались для разработки современных систем обработки естественного языка, таких как маркировщики частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. [4]Большинство вычислительных систем используют данные банка деревьев золотого стандарта. Тем не менее, автоматически проанализированный корпус, не исправленный лингвистами-людьми, все же может быть полезен. Он может предоставить свидетельство частоты правил для синтаксического анализатора. Анализатор можно улучшить, применяя его к большим объемам текста и собирая частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.

В корпусной лингвистике банки деревьев используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений во времени). После анализа корпус будет содержать данные о частоте, показывающие, насколько часто используются различные грамматические структуры. Банки деревьев также предоставляют доказательства охвата и поддерживают открытие новых, непредвиденных грамматических явлений.

Еще одно использование деревьев в теоретической лингвистике и психолингвистике - свидетельство взаимодействия. Заполненный банк деревьев может помочь лингвистам провести эксперименты, чтобы выяснить, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение сформировать другие, и попытаться понять, как говорящие и писатели принимают решения, формируя предложения. Исследования взаимодействия особенно плодотворны, когда к корпусу добавляются дополнительные уровни аннотаций, например, семантический, прагматический. Затем можно оценить влияние несинтаксических явлений на грамматический выбор.

В лингвистических исследованиях аннотированные данные банка деревьев использовались в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве встречающихся в природе примеров. [ нужна ссылка ]

Семантические деревья деревьев

Семантический древовидный банк представляет собой набор предложений на естественном языке, аннотированных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank , разработанный в Университете Гронингена и аннотированный с использованием теории репрезентации дискурса . Примером неглубокого семантического древовидного банка является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .

Синтаксические банки деревьев

Многие синтаксические банки деревьев были разработаны для самых разных языков:

Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотации для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества различных корпусов банков деревьев. Например, универсальный подход к аннотации для деревьев зависимостей; [10] и универсальный подход к аннотации для банков деревьев структуры фраз. [11]

инструменты поиска

Один из ключевых способов извлечения доказательств из банка деревьев — использование инструментов поиска. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Пользовательские интерфейсы варьируются по сложности от систем запросов на основе выражений, предназначенных для компьютерных программистов, до полных сред исследования, предназначенных для общих лингвистов. Уоллис (2008) подробно обсуждает принципы поиска на деревьях и анализирует состояние дел того времени. [12]

Смотрите также

  • Текстовый корпус
  • Грамматика структуры фразы
  • Грамматика зависимостей
  • Разбор
  • Маркировка частями речи

использованная литература

  1. ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по вычислительной лингвистике и обработке естественного языка. Уайли.
  2. ^ Сэмпсон, Г. (2003) «Размышления дендрографа». В книге А. Уилсона, П. Райсона и Т. МакЭнери (редакторы) Corpus Linguistics by the Lune: A Festschrift для Джеффри Лича, Франкфурт-на-Майне: Питер Ланг, стр. 157–184.
  3. Хайтао Лю, Вэй Хуанг - Синтаксис зависимости от китайского языка для дерева банков , опубликовано Коммуникационным университетом Китая , опубликовано (в сети) Ассоциацией вычислительной лингвистики - по состоянию на 4 февраля 2020 г.
  4. ^ Кюблер, Сандра; Макдональд, Райан; Нивре, Жоаким (18 декабря 2008 г.). «Разбор зависимостей». Обобщающие лекции по технологиям человеческого языка . 2 (1): 1–127. doi : 10.2200/s00169ed1v01y200901hlt002 .
  5. ^ Kais Dukes (2013) Семантическая аннотация пространственных команд роботов . Конференция по языку и технологиям (LTC). Познань, Польша.
  6. Celano, Giuseppe GA 2014. Руководство по аннотации древнегреческого дерева зависимостей 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  7. ^ Мамбрини, Ф. 2016. Древовидная база зависимостей Древней Греции: лингвистическая аннотация в учебной среде. В: Бодар, Г. и Романелло, М. (ред.) Цифровая классика за пределами эхо-камеры: обучение, обмен знаниями и взаимодействие с общественностью, стр. 83–99. Лондон: Ubiquity Press. doi : 10.5334/bat.f
  8. ^ a b c d e f Даг Хауг. 2015. Берега деревьев в исторических лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Benjamins, 188–202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf .
  9. ^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских деревьев (версия 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  10. ^ Макдональд, Р .; Нивр, Дж., Квирмбах-Брандейдж, Ю.; и другие. «Универсальная аннотация зависимостей для многоязычного анализа». Материалы ACL 2013 .{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  11. ^ Хан, AL-F; Вонг, Д. Ф.; Чао, Л.С.; Лу, Ю.; Он, Л. и Тиан, Л. (2014). «Универсальный набор тегов фраз для многоязычных банков деревьев» (PDF) . Труды CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . doi : 10.1007/978-3-319-12277-9_22 .
  12. ^ Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Люделинг, А. и Кито, М. (ред.) Корпусная лингвистика: международный справочник. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.
Получено с https://en.wikipedia.org/w/index.php?title=Treebank&oldid=1048054422 .