Из Википедии, бесплатной энциклопедии
  (Перенаправлено из семантического парсера )
Перейти к навигации Перейти к поиску

Семантический анализ - это задача преобразования высказывания на естественном языке в логическую форму : машинно-понятное представление его значения. [1] Таким образом, семантический анализ можно понимать как извлечение точного значения высказывания. Применение семантического синтаксического анализа включают в себя машинный перевод , [2] вопрос с ответом , [1] [3] Онтология индукции , [4] автоматизированные рассуждения , [5] и генерации кода . [6] [7] Фраза была впервые использована в 1970-х Йориком Уилксом. как основа для программ машинного перевода, работающих только с семантическими представлениями. [8]

В компьютерном зрении семантический анализ - это процесс сегментации трехмерных объектов. [9] [10]

Типы [ править ]

Мелкий [ править ]

Поверхностный семантический синтаксический анализ связан с идентификацией сущностей в высказывании и присвоением им обозначений ролей, которые они играют. Неглубокий семантический синтаксический анализ иногда называют семантическим анализом заполнения слотов или фреймов, поскольку его теоретическая основа исходит из семантики фрейма , в которой слово вызывает фрейм связанных понятий и ролей. Системы заполнения слотов широко используются в виртуальных помощниках в сочетании с классификаторами намерений, которые можно рассматривать как механизмы для идентификации кадра, вызываемого высказыванием. [11] [12] Популярные архитектуры для заполнения слотов в основном представляют собой варианты модели кодер-декодер, в которой две рекуррентные нейронные сети(RNN) обучаются совместно кодировать высказывание в вектор и декодировать этот вектор в последовательность меток слотов. [13] Этот тип модели используется в системе понимания разговорного языка Amazon Alexa . [11]

Глубокий [ править ]

Глубокий семантический анализ, также известный как композиционный семантический анализ, связан с созданием точных представлений смысла высказываний, которые могут содержать значительную композицию . [14] Мелкие семантические синтаксические анализаторы могут анализировать высказывания типа «покажи мне рейсы из Бостона в Даллас», классифицируя намерение как «список рейсов» и заполняя слоты «источник» и «пункт назначения» словами «Бостон» и «Даллас» соответственно. Однако поверхностный семантический синтаксический анализ не может анализировать произвольные композиционные высказывания, такие как «покажите мне рейсы из Бостона в любую точку, где есть рейсы в Джуно». Глубокий семантический синтаксический анализ пытается проанализировать такие высказывания, обычно путем преобразования их в формальный язык представления значений.

Языки представления [ править ]

Ранние семантические синтаксические анализаторы использовали языки представления значений с высокой степенью предметной специфики, [15] в более поздних системах использовались более расширяемые языки, такие как Prolog , [16] лямбда-исчисление , [17] композиционная семантика на основе лямбда-зависимостей (λ-DCS), [18] SQL , [19] [20] Python , [21] Java , [22] язык представления значений Alexa [11] и представление абстрактных значений (AMR). В некоторых работах использовались более экзотические представления значений, такие как графы запросов, [23] семантические графы, [24]или векторные представления. [25]

Модели [ править ]

Большинство современных моделей глубокого семантического синтаксического анализа основаны либо на определении формальной грамматики для анализатора диаграмм, либо на использовании RNN для прямого перевода с естественного языка на язык представления значений. Примерами систем, построенных на формальных грамматиках, являются Корнельская структура семантического анализа [26], семантический синтаксический анализ с выполнением Стэнфордского университета (SEMPER) [3] и семантический синтаксический анализатор на основе выравнивания слов (WASP). [27]

Наборы данных [ править ]

Наборы данных, используемые для обучения моделей статистического семантического анализа, делятся на два основных класса в зависимости от приложения: те, которые используются для ответа на вопросы с помощью запросов к базе знаний , и те, которые используются для генерации кода.

Ответ на вопрос [ править ]

Стандартный набор данных для ответов на вопросы посредством семантического синтаксического анализа - это набор данных системы информации о воздушных поездках (ATIS), который содержит вопросы и команды о предстоящих рейсах, а также соответствующий SQL. [19] Другой эталонный набор данных - это набор данных GeoQuery, который содержит вопросы о географии США в паре с соответствующим Прологом. [16] Набор данных Overnight используется для проверки того, насколько хорошо семантические анализаторы адаптируются к нескольким доменам; он содержит запросы на естественном языке о 8 различных доменах в паре с соответствующими выражениями λ-DCS. [28]

Генерация кода [ править ]

Популярные наборы данных для генерации кода включают два набора данных коллекционных карточек, которые связывают текст, отображаемый на карточках, с кодом, который точно представляет эти карточки. Один был создан для связывания текстов карточек Magic: The Gathering с фрагментами кода Java; другой - связав тексты карточек Hearthstone с фрагментами Python. [22] IFTTT набор данных [29] использует специализированный предметно-ориентированный язык с короткими условных команд. Набор данных Django [30] объединяет фрагменты Python с английским и японским псевдокодами, описывающими их. Набор данных RoboCup [31] объединяет английские правила с их представлениями на предметно-ориентированном языке, понятном виртуальным играющим в футбол роботам.

См. Также [ править ]

  • Автоматическое программирование
  • Класс (философия)
  • Формальная семантика (лингвистика)
  • Извлечение информации
  • Поиск информации
  • Ответ на вопрос
  • Семантический анализ (лингвистика)
  • Маркировка семантических ролей
  • Статистическая семантика
  • Синтаксис
  • Различие типа и токена

Ссылки [ править ]

  1. ^ а б Цзя, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа». arXiv : 1606.03622 [ cs.CL ].
  2. Андреас, Джейкоб, Андреас Влахос и Стивен Кларк. « Семантический разбор как машинный перевод ». Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие статьи). Vol. 2. 2013.
  3. ^ а б Берант, Джонатан и др. «Семантический анализ на основе Freebase из пар вопрос-ответ». ЕМНЛП. Vol. 2. № 5. 2013.
  4. ^ Пун, Hoifung, и Педро Домингуш. « Выведение онтологии из текста без учителя ». Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2010.
  5. ^ Kaliszyk, Цезари, Josef Urban, и Иржи Выскочил. « Автоматизация формализации статистическим и семантическим анализом математики ». Международная конференция по интерактивному доказательству теорем. Спрингер, Чам, 2017.
  6. ^ Рабинович, Максим; Стерн, Митчелл; Кляйн, Дэн (2017-04-25). «Абстрактные синтаксические сети для генерации кода и семантического анализа». arXiv : 1704.07535 [ cs.CL ].
  7. ^ Инь, Пэнчэн; Нойбиг, Грэм (2017-04-05). «Синтаксическая нейронная модель для генерации кода общего назначения». arXiv : 1704.01696 [ cs.CL ].
  8. ^ Уилкс, Ю. и Фасс, Д. (1992) Семейство семантики предпочтений , В компьютерах и математике с приложениями, том 23, выпуски 2-5, страницы 205-221.
  9. ^ Армени, Иро и др. « Трехмерный семантический разбор больших внутренних пространств ». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.
  10. ^ Ци, Чарльз Р. и др. « Pointnet: глубокое изучение наборов точек для трехмерной классификации и сегментации ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017 г.
  11. ^ a b c Кумар, Анджишну и др. «Just ASK: построение архитектуры для расширяемого самообслуживания для понимания разговорного языка». Препринт arXiv arXiv: 1711.00549 (2017).
  12. ^ Бапна, Анкур и др. «На пути к семантическому синтаксическому анализу кадра с нулевым кадром для масштабирования домена». Препринт arXiv arXiv: 1707.02363 (2017).
  13. Лю, Бинг и Ян Лейн. «Основанные на внимании рекуррентные модели нейронных сетей для совместного обнаружения намерений и заполнения слотов». Препринт arXiv arXiv: 1609.01454 (2016).
  14. ^ Лян, Перси и Кристофер Поттс. «Объединение машинного обучения и композиционной семантики». Анну. Преподобный лингвист. 1.1 (2015): 355-376.
  15. ^ Вудс, Уильям А. Семантика вопросно-ответной системы . Vol. 27. Garland Pub., 1979.
  16. ^ a b Зелле, Джон М. и Раймонд Дж. Муни. «Обучение синтаксическому анализу запросов к базе данных с использованием индуктивного логического программирования». Материалы национальной конференции по искусственному интеллекту . 1996 г.
  17. Вонг, Юк Ва и Раймонд Муни. «Изучение синхронных грамматик для семантического анализа с помощью лямбда-исчисления». Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики . 2007 г.
  18. ^ Лян, Перси. «Композиционная семантика на основе лямбда-зависимостей». Препринт arXiv arXiv: 1309.4408 (2013).
  19. ^ а б Хемфилл, Чарльз Т., Джон Дж. Годфри и Джордж Р. Доддингтон. «Пилотный корпус систем разговорной речи ATIS». Речевые и природный язык: Труды семинара , проходившие в Hidden Valley, штат Пенсильвания, 24-27 июня 1990 года . 1990 г.
  20. ^ Айер, Сринивасан и др. «Изучение нейросемантического парсера на основе отзывов пользователей». Препринт arXiv arXiv: 1704.08760 (2017).
  21. Инь, Пэнчэн и Грэм Нойбиг. «Синтаксическая нейронная модель для генерации кода общего назначения». Препринт arXiv arXiv: 1704.01696 (2017).
  22. ^ а б Линг, Ван и др. «Скрытые предсказательные сети для генерации кода». Препринт arXiv arXiv: 1603.06744 (2016).
  23. ^ Yih, Скотт Вэнь-тау,др. «Семантический анализ с помощью поэтапной генерации графа запросов: ответы на вопросы с помощью базы знаний». (2015).
  24. Редди, Шива, Мирелла Лапата и Марк Стидман. « Масштабный семантический парсинг без пар вопрос-ответ ». Труды Ассоциации компьютерной лингвистики 2.1 (2014): 377-392.
  25. ^ Guu, Кельвин, Джон Миллер, и Перси Лян. «Обход графов знаний в векторном пространстве». Препринт arXiv arXiv: 1506.01094 (2015).
  26. ^ Арци, Йоав. «Cornell SPF: структура семантического синтаксического анализа Cornell». Препринт arXiv arXiv: 1311.3011 (2013).
  27. ^ Вонг, Юк Ва; Муни, Рэймонд Дж. (04.06.2006). Обучение семантическому синтаксическому анализу с помощью статистического машинного перевода . Труды основной конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики -. Ассоциация компьютерной лингвистики. С. 439–446. CiteSeerX 10.1.1.135.7209 . DOI : 10.3115 / 1220835.1220891 . 
  28. ^ Ван, Yushi, Джонатан Berant, и Перси Лян. «Создание семантического парсера в одночасье». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Vol. 1. 2015.
  29. ^ Причуда, Крис, Raymond Муни, и Мишель камбуз. «Язык для программирования: изучение семантических анализаторов для рецептов« если-то-то-то »». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Vol. 1. 2015.
  30. ^ Ода, Юсуке и др. «Обучение генерации псевдокода из исходного кода с помощью статистического машинного перевода (t)». Автоматизированная разработка программного обеспечения (ASE), 30-я Международная конференция IEEE / ACM, 2015 г., посвященная . IEEE, 2015.
  31. ^ Kuhlmann, Грегори и др. «Консультирование ученика с подкреплением с помощью совета на естественном языке: первые результаты в футболе RoboCup». Семинар AAAI-2004 по диспетчерскому управлению обучающими и адаптивными системами . 2004 г.