Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Разобрать дерево до SAAB.

Дерево разбора или синтаксическое дерево [1] или дерево вывода или конкретный синтаксис дерево представляет собой упорядоченные, укорененные дерева , что представляет собой синтаксическую структуру строки в соответствии с некоторой контекстно-свободной грамматикой . Сам термин " дерево синтаксического анализа" используется в основном в компьютерной лингвистике ; в теоретическом синтаксисе чаще встречается термин синтаксическое дерево .

Конкретные синтаксические деревья отражают синтаксис входного языка, что отличает их от абстрактных синтаксических деревьев, используемых в компьютерном программировании. В отличие от диаграмм предложений Рида-Келлогга, используемых для обучения грамматике, деревья синтаксического анализа не используют отдельные формы символов для различных типов составляющих .

Деревья синтаксического разбора обычно строятся либо на основе отношения контингента грамматик контингента ( грамматик структуры фраз ), либо на основе отношения зависимости грамматик зависимости . Деревья синтаксического разбора могут быть созданы для предложений на естественных языках (см. Обработка естественного языка ), а также во время обработки компьютерных языков, таких как языки программирования . [ необходима цитата ]

Сходным понятием является понятие фразового маркера или Р-маркера , используемого в трансформационной генеративной грамматике . Фразовый маркер - это языковое выражение, помеченное в соответствии с его фразовой структурой. Это может быть представлено в виде дерева или в виде выражения в квадратных скобках. Маркеры фраз создаются путем применения правил структуры фраз и сами подчиняются дальнейшим правилам преобразования. [2] Набор возможных деревьев синтаксического анализа для синтаксически неоднозначного предложения называется «лесом синтаксического анализа». [3]

Номенклатура [ править ]

Синтаксическое дерево состоит из узлов и ветвей. [4] На рисунке дерево синтаксического анализа - это вся структура, начиная с S и заканчивая каждым из листовых узлов (John, ball, the, hit). В дереве синтаксического анализа каждый узел является либо корневым узлом, либо узлом ветви , либо конечным узлом. В приведенном выше примере S - корневой узел, NP и VP - узлы ветвления, а John, ball, the и hit - все листовые узлы.

Узлы также могут называться родительскими узлами и дочерними узлами. Родительский узел, который имеет , по меньшей мере , один другой узел , связанную ветвь под ним. В этом примере S является родительским элементом как для NP, так и для VP. Ребенок узел, который имеет по меньшей мере один узел непосредственно над ней , с которым он связан с помощью ветви дерева. Опять же из нашего примера, хит - это дочерний узел V.

Нетерминальный функция является функцией (узел) , который является либо корнем или ветвь в этом дереве в то время как терминал функция является функцией (узел) в дереве синтаксического анализа , который является листом.

Деревья синтаксического анализа на основе избирательных округов [ править ]

Деревья синтаксического анализа грамматик избирательных округов (= грамматик структуры фраз ) различают терминальные и нетерминальные узлы. В внутренних узлах помечены нетерминальными категориями грамматики, а листовые узлы помечены терминальные категории. Изображение ниже представляет дерево синтаксического анализа на основе избирательных округов; он показывает синтаксическую структуру английского предложения John hit the ball :

Дерево синтаксического анализа PSG

Дерево синтаксического анализа - это вся структура, начиная с S и заканчивая каждым из листовых узлов ( John , hit , the , ball ). В дереве используются следующие сокращения:

  • S для предложения , структура верхнего уровня в этом примере
  • NP для существительной фразы . Первый (крайний слева) НП, единственное существительное «Джон», служит подлежащим предложения. Второй - предмет предложения.
  • VP для глагольной фразы , которая служит сказуемым
  • V для глагола . В данном случае это переходный глагол « хит» .
  • D для определителя , в данном случае определенный артикль "the"
  • N для существительного

Каждый узел в дереве является либо корневым узлом, либо узлом ветви , либо листовым узлом. [5] Корневой узел - это узел, на вершине которого нет ветвей. В предложении всегда есть только один корневой узел. Узел ветви - это родительский узел, который соединяется с двумя или более дочерними узлами. Однако листовой узел - это конечный узел, который не доминирует над другими узлами в дереве. S является корневым узлом, НП и ВП являются узлами ветвления и Джон (N), удар (V), (D) и шар (N) , все листовые узлы. Листья - это лексические знаки предложения. [6] [ необходима страница ]Родительский узел - это тот, у которого есть хотя бы один другой узел, связанный ветвью под ним. В этом примере S является родительским для N и VP. Дочерний узел - это узел, над которым есть хотя бы один узел, с которым он связан ветвью дерева. В этом примере попадание является дочерним узлом V. Термины « мать» и « дочь» также иногда используются для обозначения этих отношений.

Деревья синтаксического анализа на основе зависимостей [ править ]

Основанные на зависимостях деревья синтаксического анализа грамматик зависимостей [7] рассматривают все узлы как терминальные, что означает, что они не признают различия между терминальными и нетерминальными категориями. В среднем они проще, чем деревья синтаксического анализа на основе округов, поскольку содержат меньше узлов. Дерево синтаксического анализа на основе зависимостей для приведенного выше примера предложения выглядит следующим образом:

В этом дереве синтаксического анализа отсутствуют фразовые категории (S, VP и NP), которые можно увидеть в приведенном выше аналоге на основе избирательных округов. Как и в дереве на основе избирательных округов, структура участников признается. Любое полное поддерево дерева является составной частью. Таким образом, это основанное на зависимостях дерево синтаксического анализа признает подлежащее существительное Джон и объектное существительное, выражающее мяч, как составные части, как это делает дерево синтаксического анализа на основе избирательных округов.

Различие между контингентом и зависимостью имеет далеко идущие последствия. Вопрос о том, нужна ли дополнительная синтаксическая структура, связанная с деревьями синтаксического анализа на основе избирательных округов, является предметом споров.

Маркеры фраз [ править ]

Фразовые маркеры, или P-маркеры, были введены в раннюю трансформационную генеративную грамматику , разработанную Ноамом Хомски и другими. Маркер фразы, представляющий глубокую структуру предложения, генерируется путем применения правил структуры фразы . Затем это приложение может претерпеть дальнейшие преобразования.

Маркеры фраз могут быть представлены в виде деревьев (как в предыдущем разделе, посвященном деревьям синтаксического анализа на основе избирательных округов ), но вместо этого часто даются в виде «выражений в квадратных скобках», которые занимают меньше места в памяти. Например, выражение в квадратных скобках, соответствующее приведенному выше дереву на основе избирательных округов, может выглядеть примерно так:

Как и в случае с деревьями, точное построение таких выражений и количество показываемых деталей могут зависеть от применяемой теории и от моментов, которые автор запроса хочет проиллюстрировать.

См. Также [ править ]

  • Абстрактное синтаксическое дерево
  • Составляющая (лингвистика)
  • Грамматика зависимостей
  • Компьютерная лингвистика
  • Парсинг (синтаксический анализ)
  • Разбирать чаще
  • Грамматика структуры фраз
  • Диаграмма предложений
  • Терминальные и нетерминальные символы

Примечания [ править ]

  1. ^ См Chiswell и Ходжес 2007: 34.
  2. Ноам Хомский (26 декабря 2014 г.). Аспекты теории синтаксиса . MIT Press. ISBN 978-0-262-52740-8.
  3. ^ Billot, Сильви, и Бернард Ланг. « Структура общих лесов в неоднозначном разборе ».
  4. ^ "Пакет parsetree для рисования деревьев в LaTeX" . www1.essex.ac.uk .
  5. ^ См. Карни (2013: 118 и далее) для введения в основные концепции синтаксических деревьев (например, корневой узел, конечный узел, нетерминальный узел и т. Д.).
  6. ^ См. Ахо и др. 1986 г.
  7. ^ См., Например, Ágel et al. 2003/2006.

Ссылки [ править ]

  • Агель В. , Людвиг Эйхингер, Ханс-Вернер Эромс, Петер Хельвиг, Ганс Херингер и Хенниг Лобин (ред.) 2003/6. Зависимость и валентность: международный справочник современных исследований . Берлин: Вальтер де Грюйтер.
  • Карни, А. 2013. Синтаксис: Генеративное введение , 3-е издание. Молден, Массачусетс: Wiley-Blackwell.
  • Чисвелл, Ян и Уилфрид Ходжес 2007. Математическая логика. Оксфорд: Издательство Оксфордского университета.
  • Ахо, А. В., Сетхи, Р., и Ульман, Дж. Д. 1986. Компиляторы: принципы, методы и инструменты . Ридинг, Массачусетс: Эддисон-Уэсли.

Внешние ссылки [ править ]

  • Редактор синтаксического дерева
  • Конструктор лингвистического дерева
  • phpSyntaxTree - онлайн-сайт для рисования дерева синтаксического анализа
  • phpSyntaxTree (Unicode) - онлайн-сайт для рисования дерева синтаксического анализа (улучшенная версия, поддерживающая Unicode)
  • rSyntaxTree Улучшенная версия phpSyntaxTree на Ruby с Unicode и векторизованной графикой
  • Qtree - пакет LaTeX для рисования деревьев синтаксического анализа
  • Программа для рисования синтаксического дерева TreeForm
  • Визуальное введение в дерево синтаксического анализа: введение и преобразование
  • Введение в анализ зависимостей OpenCourseOnline (Кристопер Мэннинг)
  • Учредительные бирки Penn Treebank II