Маркировка семантической роли

При обработке естественного языка семантическая ролевая маркировка (также называемая поверхностным семантическим разбором или заполнением слотов ) — это процесс, который присваивает метки словам или фразам в предложении, которые указывают на их семантическую роль в предложении, такую как роль агента , цели, или результат.

Служит для нахождения смысла предложения. Для этого он определяет аргументы, связанные с сказуемым или глаголом предложения, и то , как они классифицируются по их конкретным ролям . Типичным примером является предложение «Мэри продала книгу Джону». Агент — «Мэри», предикат — «продать» (точнее, «продать»), тема — «книга», получатель — «Джон». Другой пример: для «книга принадлежит мне» потребуются две метки, такие как «владелец» и «владелец», а для «книга была продана Джону» потребуются две другие метки, такие как тема и получатель, несмотря на то, что эти два предложения похожи. на «субъект» и «объект» функции. ^[1]

В 1968 году Чарльз Дж. Филлмор предложил первую идею семантической маркировки ролей . ^[2] Его предложение привело к проекту FrameNet , который произвел первый крупный вычислительный словарь, систематически описывающий многие предикаты и их соответствующие роли. Дэниел Гилдеа (в настоящее время работает в Университете Рочестера , ранее — в Калифорнийском университете в Беркли / Международном институте компьютерных наук ) и Дэниел Джурафски (в настоящее время преподает в Стэнфордском университете , но ранее работал в Университете Колорадо и Калифорнийском университете в Беркли ).) разработал первую автоматическую систему маркировки семантических ролей на основе FrameNet. Корпус PropBank добавил созданные вручную семантические ролевые аннотации к корпусу Penn Treebank текстов Wall Street Journal . Многие системы автоматической маркировки семантических ролей использовали PropBank в качестве обучающего набора данных, чтобы научиться автоматически аннотировать новые предложения. ^[3]

Маркировка семантических ролей в основном используется для того, чтобы машины понимали роли слов в предложениях. ^[4] Это приносит пользу приложениям, аналогичным программам обработки естественного языка , которым необходимо понимать не только слова языков, но и то, как их можно использовать в различных предложениях. ^[5] Лучшее понимание семантической маркировки ролей может привести к прогрессу в ответах на вопросы , извлечении информации , автоматическом обобщении текста , анализе текстовых данных и распознавании речи . ^[6]