Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Визуальное представление семантического лексикона

Семантический лексикон представляет собой цифровой словарь из слов , помеченных семантических классов , так что ассоциации могут быть сделана между словами , которые ранее не сталкивались. [1] Семантические лексиконы построены на семантических сетях , которые представляют семантические отношения между словами. Разница между семантическим лексиконом и семантической сетью состоит в том, что семантический лексикон имеет определения для каждого слова или «глосс». [2]

Структура [ править ]

Семантические лексики состоят из лексических статей. Эти записи не орфографические, а семантические, что устраняет проблемы омонимии и многозначности. Эти лексические статьи связаны семантическими отношениями , такими как гиперонимия, гипонимия, меронимия или тропонимия. Синонимичные записи сгруппированы вместе в том, что Princeton WordNet называет « синсетами » [2]. Большинство семантических лексиконов состоит из четырех различных «подсетей»: [2] существительных, глаголов, прилагательных и наречий, хотя некоторые исследователи предприняли определенные шаги. добавить «искусственный узел», соединяющий подсети. [3]

Существительные [ править ]

Существительные упорядочены в таксономию , структурированную в иерархию, где самое широкое и всеобъемлющее существительное расположено наверху, например «вещь», причем существительные становятся все более и более конкретными по мере удаления от вершины. Самое верхнее существительное в семантическом лексиконе называется уникальным новичком . [4] Наиболее специфические существительные (те, у которых нет подчиненных), являются конечными узлами . [3]

В семантической лексике также различаются типы, в которых тип чего-либо имеет характеристики, например, родезийский риджбек, являющийся типом собаки, и случаи, когда что-то является примером сказанного, например, Дэйв Грол является экземпляром музыканта. . Экземпляры всегда являются конечными узлами, потому что они единичны и не имеют принадлежащих им других слов или онтологических категорий . [2]

Семантические лексиконы также адрес меронит и холонит , [5] , который представляет собой «часть-к-целое» отношения, такие как ключи являются частью ноутбука. Необходимые атрибуты, определяющие конкретную запись, также обязательно присутствуют в гипониме этой записи . Итак, если у компьютера есть ключи , а ноутбук - это разновидность компьютера , то у ноутбука должны быть ключи . Однако во многих случаях это различие может стать нечетким. Хорошим примером этого является стул для предметов.. Большинство определили бы стул как имеющий ножки и сиденье (как в части, на которой сидит человек). Однако в бутиках с завышенной ценой есть несколько очень «художественных» и «современных» стульев, у которых вообще нет ножек. У мешков с фасолью также нет ножек, но мало кто станет утверждать, что это не стулья. Подобные вопросы являются основными вопросами, которые стимулируют исследования и работу в области таксономии и онтологии .

Глаголы [ править ]

Синсеты глаголов устроены так же, как и их аналоги в существительном: более общие и охватывающие глаголы находятся в верхней части иерархии, а тропонимы (глаголы, описывающие более конкретный способ действия) сгруппированы ниже. Специфика глагола перемещается по вектору , при этом глаголы становятся все более и более конкретными в отношении определенного качества. [2] Например. Набор «ходьба / бег / спринт» становится более конкретным с точки зрения скорости, а «неприязнь / ненависть / отвращение» становится более конкретным с точки зрения интенсивности эмоции.

Онтологические группировки и разделения глаголов гораздо более спорны, чем их существительные. Широко распространено мнение о том , что собака является одним из видов животных и о том , что стул является тип стула , но можно утверждать , что гнушающиеся находится на том же эмоциональном плане , как ненависть (что они являются синонимами , а не супер / подчинённые). Также можно утверждать, что любовь и обожание - синонимы, или что одно более определенно, чем другое. Таким образом, отношения между глаголами не так согласованы, как отношения между существительными.

Еще одним признаком отношений синсет глаголов является то, что они также упорядочены по парам глаголов. В этих парах один глагол обязательно влечет за собой другой, так же как резня влечет за собой убийство , а знание влечет за собой верить . [2] Эти пары глаголов могут быть тропонимами и их подчиненными, как в первом примере, или они могут быть в совершенно разных онтологических категориях, как в случае во втором примере.

Прилагательные [ править ]

Прилагательные отношения synset очень похожи на отношения synset глаголов. Они не так четко иерархичны, как отношения синсетов существительных, и у них меньше уровней и больше конечных узлов. Однако, как правило, в отношениях синсетов прилагательных имеется меньше конечных узлов на онтологическую категорию, чем у глаголов. Прилагательные в семантических лексиконах также организованы в пары слов, с той разницей, что их пары слов являются антонимами, а не следствиями . Более общие полярные прилагательные, такие как горячий и холодный или счастливый и грустный, являются парными. Затем с каждым из этих слов связываются другие семантически похожие прилагательные. Горячий связан степлый , горячий , шипящий и изнуряющий , в то время как холод связан с прохладой , зябкостью , замораживанием и раздражительностью . Эти семантически похожие прилагательные считаются косвенными антонимами [2] противоположного полярного прилагательного (т.е. nippy является косвенным антонимом hot ). Прилагательные, образованные от глагола или существительного, также напрямую связаны с указанным глаголом или существительным в подсетях. Например, приятное связано с семантически похожими прилагательными приятный и приятный., а также от глагола его происхождения, наслаждаться .

Наречия [ править ]

В семантическом лексиконе очень мало наречий. Это связано с тем, что большинство наречий взяты непосредственно из своих аналогов прилагательных, как по значению, так и по форме, и изменяются только морфологически (то есть « счастье» происходит от слова « счастливый» , а « к счастью» - от слова « счастливый» , которое происходит от удачи ). Единственные наречия, которые используются специально, - это наречия без этих связей, например, действительно , в основном и вряд ли . [2]

Проблемы семантической лексики [ править ]

Эффект от проекта Princeton WordNet выходит далеко за рамки английского языка, хотя большинство исследований в этой области вращается вокруг английского языка. Создание семантического лексикона для других языков оказалось очень полезным для приложений обработки естественного языка . Одним из основных направлений исследований семантических лексиконов является связывание лексиконов разных языков для помощи в машинном переводе . Наиболее распространенный подход - попытаться создать общую онтологию, которая служит своего рода «посредником» между семантическими лексиконами двух разных языков. [6]Это чрезвычайно сложная и пока еще нерешенная проблема в области машинного перевода. Одна проблема возникает из-за того, что никакие два языка не являются дословным переводом друг друга. То есть каждый язык имеет какие-то структурные или синтаксические отличия от других. Кроме того, в языках часто есть слова, которые нелегко перевести на другие языки, и уж точно не с точным пословным соответствием. Были внесены предложения по созданию установленной основы для сетей словаря. Исследования показали, что в каждом известном человеческом языке есть какая-то концепция, напоминающая синонимию , гипонимию , меронимию и антонимию.. Однако каждая предложенная до сих пор идея была встречена критикой за использование шаблона, который лучше всего подходит для английского языка и меньше - для других языков. [6]

Еще одно препятствие в этой области состоит в том, что не существует твердых руководящих принципов для структуры и содержания семантической лексики. Каждый лексиконный проект на разных языках имеет немного (или не очень) разный подход к своей Wordnet. Нет даже согласованного определения того, что такое «слово». Ортографически они определяются как строка букв с пробелами по бокам, но семантически это становится очень обсуждаемой темой. Например, хотя слово собака или жезл определить несложно , а как насчет сторожевой собаки или громоотвода?? Последние два примера будут считаться орфографически отдельными словами, хотя семантически они составляют одно понятие: один - это тип собаки, а другой - тип стержня. В дополнение к этим недоразумениям, словарные сети также являются своеобразными в том смысле , что они не всегда маркируют элементы. Они избыточны, так как им часто присваивается несколько слов для каждого значения (синсеты). Они также являются открытыми, поскольку часто фокусируются на терминологии и предметной лексике и расширяются до нее . [6]

Другие имена [ править ]

  • Wordnet
  • вычислительная лексика

Список семантических лексиконов [ править ]

  • WordNet
  • EuroWordNet
  • Многоязычный центральный репозиторий
  • Глобальный Wordnet
  • MindNet

См. Также [ править ]

  • Gellish
  • Лексикон
  • Семантическая сеть

Ссылки [ править ]

  1. ^ Тенг, Инь-Ленг (2009). Справочник по исследованиям электронных библиотек: дизайн, развитие и влияние . Мичиганский университет: Справочник по информатике. ISBN 9781599048796.
  2. ^ a b c d e f g h "О WordNet" .
  3. ^ a b Лемницер, Л. "Обогащение GermaNet: пример лексического усвоения". Seminar für Sprachwissenschaft, Universitat Tubingen .
  4. ^ Бойд-Грабер, J. (2006). «Добавление плотных, взвешенных соединений к WordNet». Материалы Третьей Международной конференции Wordnet .
  5. Перейти ↑ Hinrichs, E. (декабрь 2012 г.). «Использование отношений части-целого для автоматического вывода сложных международных отношений в GermaNet». Международный журнал по семантической сети и информационным системам . 3 .
  6. ^ a b c Феллбаум, К. (май 2012 г.). «Проблемы для многоязычного Wordnet». Языковые ресурсы и оценка . 46 : 313–326.