Семантический разбор

Семантический анализ - это задача преобразования высказывания на естественном языке в логическую форму : машинно-понятное представление его значения. ^[1] Таким образом, семантический анализ можно понимать как извлечение точного значения высказывания. Применение семантического синтаксического анализа включают в себя машинный перевод , ^[2] вопрос с ответом , ^[1]^[3] Онтология индукции , ^[4] автоматизированные рассуждения , ^[5] и генерации кода . ^[6]^[7] Фраза была впервые использована в 1970-х Йориком Уилксом. как основа для программ машинного перевода, работающих только с семантическими представлениями. ^[8]

В компьютерном зрении семантический анализ - это процесс сегментации трехмерных объектов. ^[9]^[10]

Типы [ править ]

Мелкий [ править ]

Поверхностный семантический синтаксический анализ связан с идентификацией сущностей в высказывании и присвоением им обозначений ролей, которые они играют. Неглубокий семантический синтаксический анализ иногда называют семантическим анализом заполнения слотов или фреймов, поскольку его теоретическая основа исходит из семантики фрейма , в которой слово вызывает фрейм связанных понятий и ролей. Системы заполнения слотов широко используются в виртуальных помощниках в сочетании с классификаторами намерений, которые можно рассматривать как механизмы для идентификации кадра, вызываемого высказыванием. ^[11]^[12] Популярные архитектуры для заполнения слотов в основном представляют собой варианты модели кодер-декодер, в которой две рекуррентные нейронные сети(RNN) обучаются совместно кодировать высказывание в вектор и декодировать этот вектор в последовательность меток слотов. ^[13] Этот тип модели используется в системе понимания разговорного языка Amazon Alexa . ^[11]

Глубокий [ править ]

Глубокий семантический анализ, также известный как композиционный семантический анализ, связан с созданием точных представлений смысла высказываний, которые могут содержать значительную композицию . ^[14] Мелкие семантические синтаксические анализаторы могут анализировать высказывания типа «покажи мне рейсы из Бостона в Даллас», классифицируя намерение как «список рейсов» и заполняя слоты «источник» и «пункт назначения» словами «Бостон» и «Даллас» соответственно. Однако поверхностный семантический синтаксический анализ не может анализировать произвольные композиционные высказывания, такие как «покажите мне рейсы из Бостона в любую точку, где есть рейсы в Джуно». Глубокий семантический синтаксический анализ пытается проанализировать такие высказывания, обычно путем преобразования их в формальный язык представления значений.

Языки представления [ править ]

Ранние семантические синтаксические анализаторы использовали языки представления значений с высокой степенью предметной специфики, ^{[15] в} более поздних системах использовались более расширяемые языки, такие как Prolog , ^[16] лямбда-исчисление , ^[17] композиционная семантика на основе лямбда-зависимостей (λ-DCS), ^[18] SQL , ^[19]^[20] Python , ^[21] Java , ^{[22] язык} представления значений Alexa ^[11] и представление абстрактных значений (AMR). В некоторых работах использовались более экзотические представления значений, такие как графы запросов, ^[23] семантические графы, ^[24]или векторные представления. ^[25]

Модели [ править ]

Большинство современных моделей глубокого семантического синтаксического анализа основаны либо на определении формальной грамматики для анализатора диаграмм, либо на использовании RNN для прямого перевода с естественного языка на язык представления значений. Примерами систем, построенных на формальных грамматиках, являются Корнельская структура семантического анализа ^[26], семантический синтаксический анализ с выполнением Стэнфордского университета (SEMPER) ^[3] и семантический синтаксический анализатор на основе выравнивания слов (WASP). ^[27]

Наборы данных [ править ]

Наборы данных, используемые для обучения моделей статистического семантического анализа, делятся на два основных класса в зависимости от приложения: те, которые используются для ответа на вопросы с помощью запросов к базе знаний , и те, которые используются для генерации кода.

Ответ на вопрос [ править ]

Стандартный набор данных для ответов на вопросы посредством семантического синтаксического анализа - это набор данных системы информации о воздушных поездках (ATIS), который содержит вопросы и команды о предстоящих рейсах, а также соответствующий SQL. ^[19] Другой эталонный набор данных - это набор данных GeoQuery, который содержит вопросы о географии США в паре с соответствующим Прологом. ^[16] Набор данных Overnight используется для проверки того, насколько хорошо семантические анализаторы адаптируются к нескольким доменам; он содержит запросы на естественном языке о 8 различных доменах в паре с соответствующими выражениями λ-DCS. ^[28]

Генерация кода [ править ]

Популярные наборы данных для генерации кода включают два набора данных коллекционных карточек, которые связывают текст, отображаемый на карточках, с кодом, который точно представляет эти карточки. Один был создан для связывания текстов карточек Magic: The Gathering с фрагментами кода Java; другой - связав тексты карточек Hearthstone с фрагментами Python. ^[22] IFTTT набор данных ^[29] использует специализированный предметно-ориентированный язык с короткими условных команд. Набор данных Django ^[30] объединяет фрагменты Python с английским и японским псевдокодами, описывающими их. Набор данных RoboCup ^[31] объединяет английские правила с их представлениями на предметно-ориентированном языке, понятном виртуальным играющим в футбол роботам.

См. Также [ править ]

Автоматическое программирование
Класс (философия)
Формальная семантика (лингвистика)
Извлечение информации
Поиск информации
Ответ на вопрос
Семантический анализ (лингвистика)
Маркировка семантических ролей
Статистическая семантика
Синтаксис
Различие типа и токена

Ссылки [ править ]

^ а б Цзя, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа». arXiv : 1606.03622 [ cs.CL ].
↑ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк. « Семантический разбор как машинный перевод ». Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие статьи). Vol. 2. 2013.
^ а б Берант, Джонатан и др. «Семантический анализ на основе Freebase из пар вопрос-ответ». ЕМНЛП. Vol. 2. № 5. 2013.
^ Пун, Hoifung, и Педро Домингуш. « Выведение онтологии из текста без учителя ». Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2010.
^ Kaliszyk, Цезари, Josef Urban, и Иржи Выскочил. « Автоматизация формализации статистическим и семантическим анализом математики ». Международная конференция по интерактивному доказательству теорем. Спрингер, Чам, 2017.
^ Рабинович, Максим; Стерн, Митчелл; Кляйн, Дэн (2017-04-25). «Абстрактные синтаксические сети для генерации кода и семантического анализа». arXiv : 1704.07535 [ cs.CL ].
^ Инь, Пэнчэн; Нойбиг, Грэм (2017-04-05). «Синтаксическая нейронная модель для генерации кода общего назначения». arXiv : 1704.01696 [ cs.CL ].
^ Уилкс, Ю. и Фасс, Д. (1992) Семейство семантики предпочтений , В компьютерах и математике с приложениями, том 23, выпуски 2-5, страницы 205-221.
^ Армени, Иро и др. « Трехмерный семантический разбор больших внутренних пространств ». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.
^ Ци, Чарльз Р. и др. « Pointnet: глубокое изучение наборов точек для трехмерной классификации и сегментации ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017 г.
^ a b c Кумар, Анджишну и др. «Just ASK: построение архитектуры для расширяемого самообслуживания для понимания разговорного языка». Препринт arXiv arXiv: 1711.00549 (2017).
^ Бапна, Анкур и др. «На пути к семантическому синтаксическому анализу кадра с нулевым кадром для масштабирования домена». Препринт arXiv arXiv: 1707.02363 (2017).
↑ Лю, Бинг и Ян Лейн. «Основанные на внимании рекуррентные модели нейронных сетей для совместного обнаружения намерений и заполнения слотов». Препринт arXiv arXiv: 1609.01454 (2016).
^ Лян, Перси и Кристофер Поттс. «Объединение машинного обучения и композиционной семантики». Анну. Преподобный лингвист. 1.1 (2015): 355-376.
^ Вудс, Уильям А. Семантика вопросно-ответной системы . Vol. 27. Garland Pub., 1979.
^ a b Зелле, Джон М. и Раймонд Дж. Муни. «Обучение синтаксическому анализу запросов к базе данных с использованием индуктивного логического программирования». Материалы национальной конференции по искусственному интеллекту . 1996 г.
↑ Вонг, Юк Ва и Раймонд Муни. «Изучение синхронных грамматик для семантического анализа с помощью лямбда-исчисления». Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики . 2007 г.
^ Лян, Перси. «Композиционная семантика на основе лямбда-зависимостей». Препринт arXiv arXiv: 1309.4408 (2013).
^ а б Хемфилл, Чарльз Т., Джон Дж. Годфри и Джордж Р. Доддингтон. «Пилотный корпус систем разговорной речи ATIS». Речевые и природный язык: Труды семинара , проходившие в Hidden Valley, штат Пенсильвания, 24-27 июня 1990 года . 1990 г.
^ Айер, Сринивасан и др. «Изучение нейросемантического парсера на основе отзывов пользователей». Препринт arXiv arXiv: 1704.08760 (2017).
↑ Инь, Пэнчэн и Грэм Нойбиг. «Синтаксическая нейронная модель для генерации кода общего назначения». Препринт arXiv arXiv: 1704.01696 (2017).
^ а б Линг, Ван и др. «Скрытые предсказательные сети для генерации кода». Препринт arXiv arXiv: 1603.06744 (2016).
^ Yih, Скотт Вэнь-тау,др. «Семантический анализ с помощью поэтапной генерации графа запросов: ответы на вопросы с помощью базы знаний». (2015).
↑ Редди, Шива, Мирелла Лапата и Марк Стидман. « Масштабный семантический парсинг без пар вопрос-ответ ». Труды Ассоциации компьютерной лингвистики 2.1 (2014): 377-392.
^ Guu, Кельвин, Джон Миллер, и Перси Лян. «Обход графов знаний в векторном пространстве». Препринт arXiv arXiv: 1506.01094 (2015).
^ Арци, Йоав. «Cornell SPF: структура семантического синтаксического анализа Cornell». Препринт arXiv arXiv: 1311.3011 (2013).
^ Вонг, Юк Ва; Муни, Рэймонд Дж. (04.06.2006). Обучение семантическому синтаксическому анализу с помощью статистического машинного перевода . Труды основной конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики -. Ассоциация компьютерной лингвистики. С. 439–446. CiteSeerX 10.1.1.135.7209 . DOI : 10.3115 / 1220835.1220891 .
^ Ван, Yushi, Джонатан Berant, и Перси Лян. «Создание семантического парсера в одночасье». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Vol. 1. 2015.
^ Причуда, Крис, Raymond Муни, и Мишель камбуз. «Язык для программирования: изучение семантических анализаторов для рецептов« если-то-то-то »». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Vol. 1. 2015.
^ Ода, Юсуке и др. «Обучение генерации псевдокода из исходного кода с помощью статистического машинного перевода (t)». Автоматизированная разработка программного обеспечения (ASE), 30-я Международная конференция IEEE / ACM, 2015 г., посвященная . IEEE, 2015.
^ Kuhlmann, Грегори и др. «Консультирование ученика с подкреплением с помощью совета на естественном языке: первые результаты в футболе RoboCup». Семинар AAAI-2004 по диспетчерскому управлению обучающими и адаптивными системами . 2004 г.

[:0-1] а б Цзя, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа». arXiv : 1606.03622 [ cs.CL ].

[2] Андреас, Джейкоб, Андреас Влахос и Стивен Кларк. « Семантический разбор как машинный перевод ». Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие статьи). Vol. 2. 2013.

[:3-3] а б Берант, Джонатан и др. «Семантический анализ на основе Freebase из пар вопрос-ответ». ЕМНЛП. Vol. 2. № 5. 2013.

[4] Пун, Hoifung, и Педро Домингуш. « Выведение онтологии из текста без учителя ». Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2010.

[5] Kaliszyk, Цезари, Josef Urban, и Иржи Выскочил. « Автоматизация формализации статистическим и семантическим анализом математики ». Международная конференция по интерактивному доказательству теорем. Спрингер, Чам, 2017.

[6] Рабинович, Максим; Стерн, Митчелл; Кляйн, Дэн (2017-04-25). «Абстрактные синтаксические сети для генерации кода и семантического анализа». arXiv : 1704.07535 [ cs.CL ].

[7] Инь, Пэнчэн; Нойбиг, Грэм (2017-04-05). «Синтаксическая нейронная модель для генерации кода общего назначения». arXiv : 1704.01696 [ cs.CL ].

[8] Уилкс, Ю. и Фасс, Д. (1992) Семейство семантики предпочтений , В компьютерах и математике с приложениями, том 23, выпуски 2-5, страницы 205-221.

[9] Армени, Иро и др. « Трехмерный семантический разбор больших внутренних пространств ». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.

[10] Ци, Чарльз Р. и др. « Pointnet: глубокое изучение наборов точек для трехмерной классификации и сегментации ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017 г.

[:1-11] Кумар, Анджишну и др. «Just ASK: построение архитектуры для расширяемого самообслуживания для понимания разговорного языка». Препринт arXiv arXiv: 1711.00549 (2017).

[12] Бапна, Анкур и др. «На пути к семантическому синтаксическому анализу кадра с нулевым кадром для масштабирования домена». Препринт arXiv arXiv: 1707.02363 (2017).

[13] Лю, Бинг и Ян Лейн. «Основанные на внимании рекуррентные модели нейронных сетей для совместного обнаружения намерений и заполнения слотов». Препринт arXiv arXiv: 1609.01454 (2016).

[14] Лян, Перси и Кристофер Поттс. «Объединение машинного обучения и композиционной семантики». Анну. Преподобный лингвист. 1.1 (2015): 355-376.

[15] Вудс, Уильям А. Семантика вопросно-ответной системы . Vol. 27. Garland Pub., 1979.

[:4-16] Зелле, Джон М. и Раймонд Дж. Муни. «Обучение синтаксическому анализу запросов к базе данных с использованием индуктивного логического программирования». Материалы национальной конференции по искусственному интеллекту . 1996 г.

[17] Вонг, Юк Ва и Раймонд Муни. «Изучение синхронных грамматик для семантического анализа с помощью лямбда-исчисления». Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики . 2007 г.

[18] Лян, Перси. «Композиционная семантика на основе лямбда-зависимостей». Препринт arXiv arXiv: 1309.4408 (2013).

[:5-19] а б Хемфилл, Чарльз Т., Джон Дж. Годфри и Джордж Р. Доддингтон. «Пилотный корпус систем разговорной речи ATIS». Речевые и природный язык: Труды семинара , проходившие в Hidden Valley, штат Пенсильвания, 24-27 июня 1990 года . 1990 г.

[20] Айер, Сринивасан и др. «Изучение нейросемантического парсера на основе отзывов пользователей». Препринт arXiv arXiv: 1704.08760 (2017).

[21] Инь, Пэнчэн и Грэм Нойбиг. «Синтаксическая нейронная модель для генерации кода общего назначения». Препринт arXiv arXiv: 1704.01696 (2017).

[:2-22] а б Линг, Ван и др. «Скрытые предсказательные сети для генерации кода». Препринт arXiv arXiv: 1603.06744 (2016).

[23] Yih, Скотт Вэнь-тау,др. «Семантический анализ с помощью поэтапной генерации графа запросов: ответы на вопросы с помощью базы знаний». (2015).

[24] Редди, Шива, Мирелла Лапата и Марк Стидман. « Масштабный семантический парсинг без пар вопрос-ответ ». Труды Ассоциации компьютерной лингвистики 2.1 (2014): 377-392.

[25] Guu, Кельвин, Джон Миллер, и Перси Лян. «Обход графов знаний в векторном пространстве». Препринт arXiv arXiv: 1506.01094 (2015).

[26] Арци, Йоав. «Cornell SPF: структура семантического синтаксического анализа Cornell». Препринт arXiv arXiv: 1311.3011 (2013).

[27] Вонг, Юк Ва; Муни, Рэймонд Дж. (04.06.2006). Обучение семантическому синтаксическому анализу с помощью статистического машинного перевода . Труды основной конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики -. Ассоциация компьютерной лингвистики. С. 439–446. CiteSeerX 10.1.1.135.7209 . DOI : 10.3115 / 1220835.1220891 .

[28] Ван, Yushi, Джонатан Berant, и Перси Лян. «Создание семантического парсера в одночасье». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Vol. 1. 2015.

[29] Причуда, Крис, Raymond Муни, и Мишель камбуз. «Язык для программирования: изучение семантических анализаторов для рецептов« если-то-то-то »». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Vol. 1. 2015.

[30] Ода, Юсуке и др. «Обучение генерации псевдокода из исходного кода с помощью статистического машинного перевода (t)». Автоматизированная разработка программного обеспечения (ASE), 30-я Международная конференция IEEE / ACM, 2015 г., посвященная . IEEE, 2015.

[31] Kuhlmann, Грегори и др. «Консультирование ученика с подкреплением с помощью совета на естественном языке: первые результаты в футболе RoboCup». Семинар AAAI-2004 по диспетчерскому управлению обучающими и адаптивными системами . 2004 г.

[1]