Семантическое сходство

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: «Семантическое сходство» - новости · газеты · книги · ученый · JSTOR ( декабрь 2010 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

У этой статьи нечеткий стиль цитирования . Используемые ссылки можно сделать более ясными с помощью другого или последовательного стиля цитирования и сносок . ( Декабрь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

( Узнайте, как и когда удалить этот шаблон сообщения )

Семантическое сходство - это показатель, определяемый для набора документов или терминов, где идея расстояния между элементами основана на сходстве их значения или семантического содержания, а не на лексикографическом сходстве. Это математические инструменты, используемые для оценки силы семантических отношений между единицами языка, концепциями или экземплярами посредством числового описания, полученного в соответствии со сравнением информации, подтверждающей их значение или описывающей их природу. ^[1]^[2] Термин «семантическое сходство» часто путают с семантическим родством. Семантическое родствовключает любое отношение между двумя терминами, в то время как семантическое сходство включает только отношения «есть». ^[3] Например, «автомобиль» похож на «автобус», но также имеет отношение к «дороге» и «вождению».

С вычислительной точки зрения семантическое сходство может быть оценено путем определения топологического сходства с использованием онтологий для определения расстояния между терминами / концепциями. Например, наивная метрика для сравнения понятий, упорядоченных в частично упорядоченном наборе и представленных в виде узлов ориентированного ациклического графа (например, таксономии ), будет кратчайшим путем, связывающим два узла понятий. На основе анализа текста семантическая взаимосвязь между единицами языка (например, словами, предложениями) также может быть оценена с использованием статистических средств, таких как модель векторного пространства, для корреляции слов и текстовых контекстов из подходящего корпуса текста.. Оценка предложенных мер семантического сходства / родства осуществляется двумя основными способами. Первый основан на использовании наборов данных, разработанных экспертами и состоящих из пар слов с оценкой степени семантического сходства / родства. Второй способ основан на интеграции мер внутри конкретных приложений, таких как поиск информации, рекомендательные системы, обработка естественного языка и т. Д.

Терминология [ править ]

Понятие семантического сходства более специфично, чем семантическое родство , поскольку последнее включает такие понятия, как антонимия и меронимия , а сходство - нет. ^[4] Однако в большей части литературы эти термины используются как взаимозаменяемые, наряду с такими терминами, как семантическая дистанция. По сути, семантическое сходство, семантическая дистанция и семантическая взаимосвязь означают: «Какое отношение имеет термин A к термину B?» Ответом на этот вопрос обычно является число от -1 до 1 или от 0 до 1, где 1 означает чрезвычайно высокое сходство.

Визуализация [ править ]

Интуитивно понятный способ визуализации семантического сходства терминов состоит в том, чтобы сгруппировать термины, которые тесно связаны, и расставить более удаленные друг от друга термины. Это также распространено на практике для интеллект-карт и концептуальных карт .

Более прямой способ визуализации семантического сходства двух лингвистических элементов можно увидеть с помощью подхода Semantic Folding . В этом подходе лингвистический элемент, такой как термин или текст, может быть представлен путем генерации пикселя для каждой из его активных семантических характеристик, например, в сетке 128 x 128. Это позволяет проводить прямое визуальное сравнение семантики двух элементов путем сравнения графических представлений их соответствующих наборов функций.

Приложения [ править ]

В биомедицинской информатике [ править ]

Меры семантического сходства применялись и развивались в биомедицинских онтологиях. ^[5]^[6] Они в основном используются для сравнения генов и белков на основе сходства их функций, а не сходства их последовательностей , но они также распространяются на другие биологические объекты, такие как болезни. ^[7]

Эти сравнения можно выполнить с помощью инструментов, свободно доступных в Интернете:

ProteInOn может использоваться для поиска взаимодействующих белков, поиска назначенных терминов GO и вычисления функционального семантического сходства белков UniProt, а также для получения информационного содержания и вычисления функционального семантического сходства терминов GO. ^[8]
CMPSim обеспечивает меру функционального сходства между химическими соединениями и метаболическими путями с использованием мер семантического сходства на основе ChEBI . ^[9]
CESSM предоставляет инструмент для автоматической оценки показателей семантического сходства на основе GO. ^[10]

В геоинформатике [ править ]

Сходство также применяется в геоинформатике для поиска похожих географических объектов или типов объектов: ^[11]

Сервер подобия SIM-DL ^[12] может использоваться для вычисления сходства между концепциями, хранящимися в онтологиях географических типов объектов.
Калькулятор подобия можно использовать для вычисления того, насколько хорошо связаны две географические концепции в онтологии Geo-Net-PT. ^[13]^[14]
OSM семантическая сеть может быть использована для вычисления семантического сходства тегов в OpenStreetMap . ^[15]

В компьютерной лингвистике [ править ]

Некоторые показатели используют WordNet , созданную вручную лексическую базу данных английских слов. Несмотря на преимущества человеческого надзора при построении базы данных, поскольку слова не изучаются автоматически, база данных не может измерить степень родства между многословными терминами и нерастущей лексикой. ^[4]^[16]

При обработке естественного языка [ править ]

Обработка естественного языка (NLP) - это область компьютерных наук и лингвистики. Анализ тональности, понимание естественного языка и машинный перевод (автоматический перевод текста с одного человеческого языка на другой) - вот лишь некоторые из основных областей, в которых он используется. Например, зная один информационный ресурс в Интернете, часто бывает сразу интересно найти похожие ресурсы. Semantic Web предоставляет семантические расширениячтобы найти похожие данные по содержаниюа не только произвольными дескрипторов. ^[17]^[18]^[19]^[20]^[21]^[22]^[23]^[24]^[25] Глубокое обучениеМетоды стали точным способом измерения семантического сходства между двумя текстовыми отрывками, в которых каждый отрывок сначала внедряется в непрерывное векторное представление. ^[26]^[27]^[28]

Меры [ править ]

Топологическое подобие [ править ]

По сути, есть два типа подходов, которые вычисляют топологическое сходство между онтологическими концепциями:

На основе кромок: которые используют кромки и их типы в качестве источника данных;
На основе узлов: в котором основными источниками данных являются узлы и их свойства.

Другие меры вычисляют сходство между онтологическими экземплярами:

Попарно: измерьте функциональное сходство между двумя экземплярами, комбинируя семантическое сходство концепций, которые они представляют.
Групповой: вычисляйте сходство напрямую, не комбинируя семантическое сходство концепций, которые они представляют.

Несколько примеров:

Edge-based [ править ]

Пекар и др. ^[29]
Ченг и Клайн ^[30]
Wu et al. ^[31]
Дель Посо и др. ^[32]
IntelliGO: Benabderrahmane et al. ^[6]

На основе узла [ править ]

Резник ^[33]
- основанный на понятии информационного содержания . Информационное содержание концепта (термина или слова) - это логарифм вероятности нахождения концепта в данном корпусе.
- учитывает только информационное содержание самого низкого общего потребителя ( lcs ). Самый низкий общий субпотребитель - это понятие в лексической таксономии (например, WordNet), которое имеет наименьшее расстояние от двух сравниваемых понятий. Например, и животные, и млекопитающие относятся к категории кошек и собак, но млекопитающие для них являются более низкими субпотребителями, чем животные.
Лин ^[34]
- на основании сходства Резника.
- рассматривает информационное содержание самого низкого общего субпотребителя (lcs) и двух сравниваемых концепций.
Магуитман, Менцер , Ройнестад и Веспиньяни ^[35]
- Обобщает сходство Линя с произвольными онтологиями (графами).
Цзян и Конрат ^[36]
- на основании сходства Резника.
- рассматривает информационное содержание самого низкого общего субпотребителя (lcs) и двух сравниваемых концепций для расчета расстояния между двумя концепциями. Расстояние позже используется при вычислении меры подобия.
Выравнивание, устранение неоднозначности и обход : случайные блуждания в семантических сетях ^[37]

На основе содержимого узла и отношения [ править ]

применимо к онтологии
учитывать свойства (содержимое) узлов
рассматривать типы (содержание) отношений
на основе eTVSM ^[38]
на основе подобия Резника ^[39]

Попарно [ править ]

максимум попарных сходств
составное среднее, в котором рассматриваются только наиболее подходящие пары (среднее наилучшее совпадение)

Groupwise [ править ]

Индекс Жаккара

Статистическое сходство [ править ]

Подходы к статистическому подобию можно узнать из данных или заранее определить . Изучение подобия часто может превзойти заранее определенные меры подобия. Вообще говоря, эти подходы создают статистическую модель документов и используют ее для оценки сходства.

LSA ( скрытый семантический анализ ) ^[40]^[41] (+) на основе векторов, добавляет векторы для измерения многословных терминов; (-) без инкрементного словаря, длительное время предварительной обработки
PMI ( Точечная взаимная информация ) (+) большой словарь, потому что он использует любую поисковую систему (например, Google); (-) не может измерить взаимосвязь между целыми предложениями или документами
SOC-PMI ( точечная взаимная информация второго порядка ) (+) сортирует списки важных соседних слов из большого корпуса; (-) не может измерить взаимосвязь между целыми предложениями или документами
GLSA (Generalized Latent Semantic Analysis) (+) на основе векторов, добавляет векторы для измерения многословных терминов; (-) без инкрементного словаря, длительное время предварительной обработки
ICAN (инкрементное построение ассоциативной сети) (+) инкрементная сетевая мера, удобная для распространения активации, учитывает взаимосвязь второго порядка; (-) не может измерить взаимосвязь между многословными терминами, длительное время предварительной обработки
NGD ( нормализованное расстояние Google ) (+) большой словарь, потому что он использует любую поисковую систему (например, Google); (-) может измерить взаимосвязь между целыми предложениями или документами, но чем крупнее предложение или документ, тем больше требуется изобретательности, Cilibrasi & Vitanyi (2007), ссылка ниже. ^[42]
TSS - Twitter Semantic Similarity - большой словарь pdf , потому что он использует онлайн-твиты из Twitter для вычисления сходства. Он имеет высокое временное разрешение, что позволяет фиксировать высокочастотные события. Открытый источник
NCD ( нормализованное расстояние сжатия )
ESA (явный семантический анализ) на основе Википедии и ODP
SSA (существенный семантический анализ), который индексирует термины, используя важные концепции, найденные в их непосредственном контексте.
Номер Википедии (noW) , вдохновленный игрой « Шесть степеней Википедии» , представляет собой показатель расстояния, основанный на иерархической структуре Википедии. Сначала строится ориентированный ациклический граф, а затем алгоритм кратчайшего пути Дейкстры используется для определения нового значения между двумя терминами как геодезического расстояния между соответствующими темами (то есть узлами) в графе.
VGEM (Vector Generation of an Explicitly-defined Multidimensional Semantic Space) (+) инкрементный словарь, может сравнивать многословные термины (-) производительность зависит от выбора конкретных измерений
SimRank
НАСАРИ : ^[43] Разреженные векторные представления, построенные путем применения гипергеометрического распределения по корпусу Википедии в сочетании с таксономией BabelNet . Межъязыковое сходство в настоящее время также возможно благодаря многоязычному и унифицированному расширению. ^[44]

Сходство на основе семантики [ править ]

Передача маркера: сочетание лексической декомпозиции для автоматического создания онтологий и передачи маркера Подход Fähndrich et al. вводит новый тип меры семантического сходства. ^[45] Здесь маркеры передаются от двух целевых концептов, несущих определенную активацию. Эта активация может увеличиваться или уменьшаться в зависимости от веса отношений, с которыми связаны концепции. Это объединяет подходы, основанные на краях и узлах, и включает рассуждения коннекционистов с символической информацией.
Оценка семантического сходства на основе Good Common Subsumer (GCS) ^[46]

Золотые стандарты [ править ]

Исследователи собрали наборы данных с оценками сходства пар слов, которые используются для оценки когнитивной правдоподобности вычислительных показателей. Золотой стандарт до сих пор - это старый список из 65 слов, в котором люди оценили сходство слов. ^[47] Список наборов данных и обзор современного состояния см. На https://www.aclweb.org/ .

RG65 ^[48]
MC30 ^[49]
WordSim353 ^[50]

См. Также [ править ]

Аналогия - познавательный процесс передачи информации или значения от одного предмета к другому.
Компоненциальный анализ
Согласованность (лингвистика)
Расстояние Левенштейна - метрика информатики для подобия строк
Семантический дифференциал
Семантическое сворачивание
Сеть семантического сходства
Извлечение терминологии
Word2Vec
tf-idf

Ссылки [ править ]

^ Harispe S .; Ранвез С. Джанаки С .; Монтмэн Дж. (2015). «Семантическое сходство из анализа естественного языка и онтологии». Синтез лекций по технологиям человеческого языка . 8: 1 : 1–254. arXiv : 1704.05295 . DOI : 10.2200 / S00639ED1V01Y201504HLT027 . S2CID 17428739 .
^ Feng Y .; Багери Э .; Ensan F .; Йованович Дж. (2017). «Современное состояние семантической взаимосвязи: рамки для сравнения». Обзор инженерии знаний . 32 : 1–30. DOI : 10.1017 / S0269888917000029 .
^ А. Баллаторе; М. Бертолотто; Д.К. Уилсон (2014). «Оценочная база для геосемантического родства и сходства». ГеоИнформатика . 18: 4 (4): 747–767. arXiv : 1402.3371 . Bibcode : 2014arXiv1402.3371B . DOI : 10.1007 / s10707-013-0197-8 . S2CID 17474023 .
^ a b Буданицкий Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, ориентированная на приложение оценка пяти показателей» (PDF) . Семинар по WordNet и другим лексическим ресурсам, Вторая встреча Североамериканского отделения Ассоциации компьютерной лингвистики . Питтсбург.
^ Гуцци, Пьетро Хирам; Мина, Марко; Каннатаро, Марио; Герра, Кончеттина (2012). «Анализ семантического сходства белковых данных: оценка с биологическими особенностями и проблемами» . Брифинги по биоинформатике . 13 (5): 569–585. DOI : 10.1093 / нагрудник / bbr066 . PMID 22138322 .
^ a b Бенабдеррахман, Сидахмед; Смаил Таббон, Малика; Поч, Оливье; Наполи, Амедео; Девинь, Мария-Домоник. (2010). «IntelliGO: новая векторная мера семантического сходства, включая происхождение аннотации» . BMC Bioinformatics . 11 : 588. DOI : 10,1186 / 1471-2105-11-588 . PMC 3098105 . PMID 21122125 .
^ Köhler, S; Schulz, MH; Krawitz, P; Бауэр, S; Долкен, S; Отт, CE; Mundlos, C; Рог, D; и другие. (2009). «Клиническая диагностика в генетике человека с поисками семантического сходства в онтологиях» . Американский журнал генетики человека . 85 (4): 457–64. DOI : 10.1016 / j.ajhg.2009.09.003 . PMC 2756558 . PMID 19800049 .
^ "ProteInOn" .
^ "CMPSim" .
^ "CESSM" .
^ Янович, К., Раубаль, М. и Кун, В. (2011). «Семантика подобия в поиске географической информации» . Журнал пространственной информатики . 2 (2): 29–57. DOI : 10,5311 / josis.2011.2.3 .CS1 maint: несколько имен: список авторов ( ссылка )
^ "Сервер подобия SIM-DL". 2007: 128–145. CiteSeerX 10.1.1.172.5544 . Цитировать журнал требует |journal=( помощь )
^ "Калькулятор подобия Geo-Net-PT" .
^ "Geo-Net-PT" .
^ А. Баллаторе; DC Уилсон; М. Бертолотто. «Извлечение географических знаний и семантическое сходство в OpenStreetMap» (PDF) . Знания и информационные системы : 61–81.
^ Каур, I. & Hornof, AJ (2005). Сравнение LSA, WordNet и PMI для прогнозирования поведения пользователей при кликах . Труды конференции по человеческому фактору в вычислительной технике, CHI 2005 . С. 51–60. DOI : 10.1145 / 1054972.1054980 . ISBN 978-1-58113-998-3. S2CID 14347026 .
^ Методы обучения на основе подобия для семантической паутины (К. д'Амато, докторская диссертация)
Перейти ↑ Gracia, J. & Mena, E. (2008). «Веб-мера семантического родства» (PDF) . Труды 9-й Международной конференции по разработке информационных веб-систем (WISE '08) : 136–150.
^ Raveendranathan, P. (2005). Определение наборов связанных слов из всемирной паутины . Диссертация на степень магистра наук, Университет Миннесоты, Дулут.
^ Wubben, S. (2008). Использование свободной ссылочной структуры для расчета семантической взаимосвязи . В серии технических отчетов ILK Research Group, № 08-01, 2008.
^ Juvina, И. ван Oostendorp Х., Karbor П., и Пау, B. (2005). К моделированию контекстной информации в веб-навигации . В BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27-е ежегодное собрание Общества когнитивных наук, CogSci2005 (стр. 1078–1083). Остин, Техас: Общество когнитивных наук, Inc.
^ Navigli, Р. Lapata, М. (2007). Меры связности графов для неконтролируемого устранения неоднозначности смысла слов , Proc. 20-й Международной совместной конференции по искусственному интеллекту (IJCAI 2007), Хайдарабад, Индия, 6–12 января 2007 г., стр. 1683–1688.
^ Pirolli, P. (2005). «Рациональный анализ поиска информации в сети» . Когнитивная наука . 29 (3): 343–373. DOI : 10.1207 / s15516709cog0000_20 . PMID 21702778 .
^ Pirolli, P., & Fu, W.-T. (2003). «SNIF-ACT: модель сбора информации во всемирной паутине». Конспект лекций по информатике . Конспект лекций по информатике. 2702 . С. 45–54. CiteSeerX 10.1.1.6.1506 . DOI : 10.1007 / 3-540-44963-9_8 . ISBN 978-3-540-40381-4.CS1 maint: несколько имен: список авторов ( ссылка )
^ Терни, P. (2001). Поиск синонимов в Интернете: сравнение PMI и LSA на TOEFL . В Л. Де Рэдт и П. Флах (ред.), Труды Двенадцатой Европейской конференции по машинному обучению (ECML-2001) (стр. 491–502). Фрайбург, Германия.
^ Реймерс, Нильс; Гуревич, Ирина (ноябрь 2019). «Предложение-BERT: вложения предложений с использованием сиамских BERT-сетей» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . Гонконг, Китай: Ассоциация компьютерной лингвистики: 3982–3992. arXiv : 1908.10084 . DOI : 10.18653 / v1 / D19-1410 .
^ Мюллер, Йонас; Тьягараджан, Адитья (5 марта 2016 г.). «Сиамские повторяющиеся архитектуры для изучения сходства предложений» . Тридцатая конференция AAAI по искусственному интеллекту .
^ Кирос, Райан; Чжу, Юкун; Салахутдинов, Русь Р; Земель, Ричард; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015), Кортес, С .; Лоуренс, Северная Дакота; Ли, DD; Сугияма М. (ред.), "Skip-Thought Vectors" (PDF) , Advances in Neural Information Processing Systems 28 , Curran Associates, Inc., стр. 3294–3302 , получено 13 марта 2020 г.
↑ Пекар, Виктор; Стааб, Штеффен (2002). Обучение таксономии . Материалы 19-й международной конференции по компьютерной лингвистике -. 1 . С. 1–7. DOI : 10.3115 / 1072228.1072318 .
^ Cheng, J; Клайн, М; Мартин, Дж; Финкельштейн, Д; Авад, Т; Кульп, Д; Сиани-Роуз, Массачусетс (2004). «Основанный на знаниях алгоритм кластеризации, управляемый Gene Ontology». Журнал биофармацевтической статистики . 14 (3): 687–700. DOI : 10.1081 / BIP-200025659 . PMID 15468759 . S2CID 25224811 .
^ Ву, H; Вс, З; Мао, Ф; Olman, V; Сюй, Y (2005). «Прогнозирование функциональных модулей на основе сравнительного анализа генома и приложения Gene Ontology» . Исследования нуклеиновых кислот . 33 (9): 2822–37. DOI : 10.1093 / NAR / gki573 . PMC 1130488 . PMID 15901854 .
^ Дель Посо, Анджела; Пазос, Флоренсио; Валенсия, Альфонсо (2008). «Определение функциональных расстояний по генной онтологии» . BMC Bioinformatics . 9 : 50. DOI : 10,1186 / 1471-2105-9-50 . PMC 2375122 . PMID 18221506 .
↑ Филип Резник (1995). Крис С. Меллиш (ред.). «Использование информационного содержания для оценки семантического сходства в таксономии». Материалы 14-й Международной совместной конференции по искусственному интеллекту (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg / 9511007 . Bibcode : 1995cmp.lg ... 11007R . CiteSeerX 10.1.1.41.6956 .
^ Деканг Лин. 1998. Теоретико-информационное определение подобия . В материалах пятнадцатой международной конференции по машинному обучению (ICML '98), Джуд В. Шавлик (ред.). Морган Кауфманн Паблишерс Инк., Сан-Франциско, Калифорния, США, 296-304.
^ Ана Габриэла Магуитман, Филиппо Менцер, Хизер Ройнестад, Алессандро Веспиньяни: Алгоритмическое обнаружение семантического сходства . WWW 2005: 107-116
^ JJ Jiang и DW Conrath. Семантическое сходство на основе статистики корпуса и лексической таксономии . В Международной конференции по исследованиям в области компьютерной лингвистики (ROCLING X), страницы 9008+, сентябрь 1997 г.
^ MT Пилехвар, Д. Юргенс и Р. Навильи. Выровнять, устранить неоднозначность и пройти: единый подход к измерению семантического сходства. . Proc. 51-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2013), София, Болгария, 4–9 августа 2013 г., стр. 1341–1351.
^ Донг, Хай (2009). «Гибридная модель измерения сходства концепций для среды онтологий». На пути к значимым интернет-системам: семинары OTM 2009 . Конспект лекций по информатике . 5872 . С. 848–857. Bibcode : 2009LNCS.5872..848D . DOI : 10.1007 / 978-3-642-05290-3_103 . ISBN 978-3-642-05289-7.
^ Донг, Хай (2011). «Контекстно-зависимая модель семантического сходства для онтологических сред» . Параллелизм и вычисления: практика и опыт . 23 (2): 505–524. DOI : 10.1002 / cpe.1652 . S2CID 412845 .
^ Ландауэр, Т.К .; Дюмэ, СТ (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» (PDF) . Психологический обзор . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . DOI : 10.1037 / 0033-295x.104.2.211 .
Перейти ↑ Landauer, TK, Foltz, PW, & Laham, D. (1998). «Введение в скрытый семантический анализ» (PDF) . Дискурсивные процессы . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . DOI : 10.1080 / 01638539809545028 . CS1 maint: несколько имен: список авторов ( ссылка )
^ "Расстояние сходства Google" .
^ J. Камачо Колладос, MT Pilehvar и Р. Navigli. НАСАРИ: новый подход к семантическому представлению предметов. In Proceedings of the North American Chapter of the Association of Computational Linguistics (NAACL 2015), Денвер, США, стр. 567-577, 2015
^ J. Камачо Колладос, MT Pilehvar и Р. Navigli. Единое многоязычное семантическое представление понятий. В материалах 53-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2015), Пекин, Китай, 27–29 июля, стр. 741-751, 2015 г.
^ Fähndrich J., Weber S., Ahrndt S. (2016) Дизайн и использование меры семантического сходства для взаимодействия агентов. В: Klusch M., Unland R., Shehory O., Pokahr A., Ahrndt S. (eds) Multiagent System Technologies. MATES 2016. Lecture Notes in Computer Science, vol 9872. Springer, доступна в авторской версии.
^ C. d'Amato, С. Стааб и Н. Fanizzi. О влиянии онтологий логики описания на концептуальное подобие. Инженерия знаний: практика и шаблоны, страницы 48-63, 2008 doi : 10.1007 / 978-3-540-87696-0_7
^ Рубинштейн, Герберт и Джон Б. Гуденаф. Контекстные корреляты синонимии . Сообщения ACM, 8 (10): 627–633, 1965.
^ Рубинштейн, Герберт; Гуденаф, Джон Б. (1965-10-01). «Контекстные корреляты синонимии» . Коммуникации ACM . 8 (10): 627–633. DOI : 10.1145 / 365628.365657 . S2CID 18309234 .
^ Миллер, Джордж А .; Чарльз, Уолтер Г. (1991-01-01). «Контекстные корреляты семантического сходства». Язык и когнитивные процессы . 6 (1): 1-28. DOI : 10.1080 / 01690969108406936 . ISSN 0169-0965 .
^ "Размещение поиска в контексте". ACM-транзакции в информационных системах (TOIS) . 20 : 116–131. 2002-01-01. DOI : 10.1145 / 503104.503110 . S2CID 12956853 .

Источники [ править ]

Чилибрази, Р.Л. и Витаньи, PMB (2007). «Расстояние подобия Google». IEEE Trans. Знания и инженерия данных . 19 (3): 370–383. arXiv : cs / 0412098 . DOI : 10,1109 / TKDE.2007.48 . S2CID 59777 .
Дюмэ, S (2003). «Подходы к доступу к информации, основанные на данных» . Когнитивная наука . 27 (3): 491–524. DOI : 10,1207 / s15516709cog2703_7 .
Габрилович Э. и Маркович С. (2007). Вычисление семантического родства с использованием явного семантического анализа на основе Википедии , Труды 20-й Международной совместной конференции по искусственному интеллекту (IJCAI), Хайдарабад, Индия, январь 2007 г.
Ли, доктор медицины, Пинкомб, Б., и Уэлш, М. (2005). Эмпирическая оценка моделей подобия текстовых документов . В BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27-е ежегодное собрание Общества когнитивных наук, CogSci2005 (стр. 1254–1259). Остин, Техас: Общество когнитивных наук, Inc.
Лемэр, Б., и Деньер, Г. (2004). Инкрементное построение ассоциативной сети из корпуса . В KD Forbus, D. Gentner и T. Regier (Eds.), 26-е ежегодное собрание Общества когнитивных наук, CogSci2004. Хиллсдейл, Нью-Джерси: Издатель Лоуренса Эрлбаума.
Линдси, Р., Векслер, В.Д., Гринцвайг, А., Грей, В.Д. (2007). «Влияние выбора корпуса на измерение семантического родства» (PDF) . Труды 8-й Международной конференции по когнитивному моделированию, Анн-Арбор, Мичиган .CS1 maint: несколько имен: список авторов ( ссылка )
Навильи Р., Лапата М. (2010). "Экспериментальное исследование связности графа для неконтролируемого устранения неоднозначности смысла слов" . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32 (4), IEEE Press, 2010, pp. 678–692.
Векслер, В. Д. и Грей, В. Д. (2006). «Выбор тестового примера для оценки мер семантического расстояния» (PDF) . Материалы 28-го ежегодного собрания Общества когнитивных наук, CogSci2006 .
Вонг В., Лю В. и Беннамун М. (2008) Кластеризация данных без признаков. В: М. Сонг и Ю. Ву; Справочник по исследованиям в области текстовых и веб-технологий майнинга; IGI Global. ISBN 978-1-59904-990-8 (использование NGD и noW для кластеризации терминов и URI)

Внешние ссылки [ править ]

Список связанной литературы

Статьи обзора [ править ]

Статья конференции : К. д'Амато, С. Стааб, Н. Фаницци. 2008. О влиянии онтологий описательной логики на концептуальное подобие . В материалах 16-й международной конференции по инженерии знаний: практика и модели, стр. 48 - 63. Acitrezza, Италия, Springer-Verlag
Журнальная статья на более общую тему родства, включая сходство: З. Чжан, А. Джентиле, Ф. Чиравенья. 2013. Последние достижения в методах лексико-семантической связанности - обзор . Инженерия естественного языка 19 (4), 411-479, Cambridge University Press
Книга : С. Хариспе, С. Ранвез, С. Джанаки, Дж. Монтмэн. 2015. Семантическое сходство из анализа естественного языка и онтологии , Morgan & Claypool Publishers.

[harispe2015-1] Harispe S .; Ранвез С. Джанаки С .; Монтмэн Дж. (2015). «Семантическое сходство из анализа естественного языка и онтологии». Синтез лекций по технологиям человеческого языка . 8: 1 : 1–254. arXiv : 1704.05295 . DOI : 10.2200 / S00639ED1V01Y201504HLT027 . S2CID 17428739 .

[Feng2017-2] Feng Y .; Багери Э .; Ensan F .; Йованович Дж. (2017). «Современное состояние семантической взаимосвязи: рамки для сравнения». Обзор инженерии знаний . 32 : 1–30. DOI : 10.1017 / S0269888917000029 .

[3] А. Баллаторе; М. Бертолотто; Д.К. Уилсон (2014). «Оценочная база для геосемантического родства и сходства». ГеоИнформатика . 18: 4 (4): 747–767. arXiv : 1402.3371 . Bibcode : 2014arXiv1402.3371B . DOI : 10.1007 / s10707-013-0197-8 . S2CID 17474023 .

[budanitsky2001-4] Буданицкий Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, ориентированная на приложение оценка пяти показателей» (PDF) . Семинар по WordNet и другим лексическим ресурсам, Вторая встреча Североамериканского отделения Ассоциации компьютерной лингвистики . Питтсбург.

[5] Гуцци, Пьетро Хирам; Мина, Марко; Каннатаро, Марио; Герра, Кончеттина (2012). «Анализ семантического сходства белковых данных: оценка с биологическими особенностями и проблемами» . Брифинги по биоинформатике . 13 (5): 569–585. DOI : 10.1093 / нагрудник / bbr066 . PMID 22138322 .

[ReferenceA-6] Бенабдеррахман, Сидахмед; Смаил Таббон, Малика; Поч, Оливье; Наполи, Амедео; Девинь, Мария-Домоник. (2010). «IntelliGO: новая векторная мера семантического сходства, включая происхождение аннотации» . BMC Bioinformatics . 11 : 588. DOI : 10,1186 / 1471-2105-11-588 . PMC 3098105 . PMID 21122125 .

[7] Köhler, S; Schulz, MH; Krawitz, P; Бауэр, S; Долкен, S; Отт, CE; Mundlos, C; Рог, D; и другие. (2009). «Клиническая диагностика в генетике человека с поисками семантического сходства в онтологиях» . Американский журнал генетики человека . 85 (4): 457–64. DOI : 10.1016 / j.ajhg.2009.09.003 . PMC 2756558 . PMID 19800049 .

[8] "ProteInOn" .

[9] "CMPSim" .

[10] "CESSM" .

[11] Янович, К., Раубаль, М. и Кун, В. (2011). «Семантика подобия в поиске географической информации» . Журнал пространственной информатики . 2 (2): 29–57. DOI : 10,5311 / josis.2011.2.3 .CS1 maint: несколько имен: список авторов ( ссылка )

[12] "Сервер подобия SIM-DL". 2007: 128–145. CiteSeerX 10.1.1.172.5544 . Цитировать журнал требует |journal=( помощь )

[13] "Калькулятор подобия Geo-Net-PT" .

[14] "Geo-Net-PT" .

[15] А. Баллаторе; DC Уилсон; М. Бертолотто. «Извлечение географических знаний и семантическое сходство в OpenStreetMap» (PDF) . Знания и информационные системы : 61–81.

[16] Каур, I. & Hornof, AJ (2005). Сравнение LSA, WordNet и PMI для прогнозирования поведения пользователей при кликах . Труды конференции по человеческому фактору в вычислительной технике, CHI 2005 . С. 51–60. DOI : 10.1145 / 1054972.1054980 . ISBN 978-1-58113-998-3. S2CID 14347026 .

[17] Методы обучения на основе подобия для семантической паутины (К. д'Амато, докторская диссертация)

[18] Перейти ↑ Gracia, J. & Mena, E. (2008). «Веб-мера семантического родства» (PDF) . Труды 9-й Международной конференции по разработке информационных веб-систем (WISE '08) : 136–150.

[19] Raveendranathan, P. (2005). Определение наборов связанных слов из всемирной паутины . Диссертация на степень магистра наук, Университет Миннесоты, Дулут.

[20] Wubben, S. (2008). Использование свободной ссылочной структуры для расчета семантической взаимосвязи . В серии технических отчетов ILK Research Group, № 08-01, 2008.

[21] Juvina, И. ван Oostendorp Х., Karbor П., и Пау, B. (2005). К моделированию контекстной информации в веб-навигации . В BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27-е ежегодное собрание Общества когнитивных наук, CogSci2005 (стр. 1078–1083). Остин, Техас: Общество когнитивных наук, Inc.

[22] Navigli, Р. Lapata, М. (2007). Меры связности графов для неконтролируемого устранения неоднозначности смысла слов , Proc. 20-й Международной совместной конференции по искусственному интеллекту (IJCAI 2007), Хайдарабад, Индия, 6–12 января 2007 г., стр. 1683–1688.

[23] Pirolli, P. (2005). «Рациональный анализ поиска информации в сети» . Когнитивная наука . 29 (3): 343–373. DOI : 10.1207 / s15516709cog0000_20 . PMID 21702778 .

[24] Pirolli, P., & Fu, W.-T. (2003). «SNIF-ACT: модель сбора информации во всемирной паутине». Конспект лекций по информатике . Конспект лекций по информатике. 2702 . С. 45–54. CiteSeerX 10.1.1.6.1506 . DOI : 10.1007 / 3-540-44963-9_8 . ISBN 978-3-540-40381-4.CS1 maint: несколько имен: список авторов ( ссылка )

[25] Терни, P. (2001). Поиск синонимов в Интернете: сравнение PMI и LSA на TOEFL . В Л. Де Рэдт и П. Флах (ред.), Труды Двенадцатой Европейской конференции по машинному обучению (ECML-2001) (стр. 491–502). Фрайбург, Германия.

[26] Реймерс, Нильс; Гуревич, Ирина (ноябрь 2019). «Предложение-BERT: вложения предложений с использованием сиамских BERT-сетей» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . Гонконг, Китай: Ассоциация компьютерной лингвистики: 3982–3992. arXiv : 1908.10084 . DOI : 10.18653 / v1 / D19-1410 .

[27] Мюллер, Йонас; Тьягараджан, Адитья (5 марта 2016 г.). «Сиамские повторяющиеся архитектуры для изучения сходства предложений» . Тридцатая конференция AAAI по искусственному интеллекту .

[28] Кирос, Райан; Чжу, Юкун; Салахутдинов, Русь Р; Земель, Ричард; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015), Кортес, С .; Лоуренс, Северная Дакота; Ли, DD; Сугияма М. (ред.), "Skip-Thought Vectors" (PDF) , Advances in Neural Information Processing Systems 28 , Curran Associates, Inc., стр. 3294–3302 , получено 13 марта 2020 г.

[29] Пекар, Виктор; Стааб, Штеффен (2002). Обучение таксономии . Материалы 19-й международной конференции по компьютерной лингвистике -. 1 . С. 1–7. DOI : 10.3115 / 1072228.1072318 .

[30] Cheng, J; Клайн, М; Мартин, Дж; Финкельштейн, Д; Авад, Т; Кульп, Д; Сиани-Роуз, Массачусетс (2004). «Основанный на знаниях алгоритм кластеризации, управляемый Gene Ontology». Журнал биофармацевтической статистики . 14 (3): 687–700. DOI : 10.1081 / BIP-200025659 . PMID 15468759 . S2CID 25224811 .

[31] Ву, H; Вс, З; Мао, Ф; Olman, V; Сюй, Y (2005). «Прогнозирование функциональных модулей на основе сравнительного анализа генома и приложения Gene Ontology» . Исследования нуклеиновых кислот . 33 (9): 2822–37. DOI : 10.1093 / NAR / gki573 . PMC 1130488 . PMID 15901854 .

[32] Дель Посо, Анджела; Пазос, Флоренсио; Валенсия, Альфонсо (2008). «Определение функциональных расстояний по генной онтологии» . BMC Bioinformatics . 9 : 50. DOI : 10,1186 / 1471-2105-9-50 . PMC 2375122 . PMID 18221506 .

[33] Филип Резник (1995). Крис С. Меллиш (ред.). «Использование информационного содержания для оценки семантического сходства в таксономии». Материалы 14-й Международной совместной конференции по искусственному интеллекту (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg / 9511007 . Bibcode : 1995cmp.lg ... 11007R . CiteSeerX 10.1.1.41.6956 .

[34] Деканг Лин. 1998. Теоретико-информационное определение подобия . В материалах пятнадцатой международной конференции по машинному обучению (ICML '98), Джуд В. Шавлик (ред.). Морган Кауфманн Паблишерс Инк., Сан-Франциско, Калифорния, США, 296-304.

[35] Ана Габриэла Магуитман, Филиппо Менцер, Хизер Ройнестад, Алессандро Веспиньяни: Алгоритмическое обнаружение семантического сходства . WWW 2005: 107-116

[36] JJ Jiang и DW Conrath. Семантическое сходство на основе статистики корпуса и лексической таксономии . В Международной конференции по исследованиям в области компьютерной лингвистики (ROCLING X), страницы 9008+, сентябрь 1997 г.

[37] MT Пилехвар, Д. Юргенс и Р. Навильи. Выровнять, устранить неоднозначность и пройти: единый подход к измерению семантического сходства. . Proc. 51-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2013), София, Болгария, 4–9 августа 2013 г., стр. 1341–1351.

[38] Донг, Хай (2009). «Гибридная модель измерения сходства концепций для среды онтологий». На пути к значимым интернет-системам: семинары OTM 2009 . Конспект лекций по информатике . 5872 . С. 848–857. Bibcode : 2009LNCS.5872..848D . DOI : 10.1007 / 978-3-642-05290-3_103 . ISBN 978-3-642-05289-7.

[39] Донг, Хай (2011). «Контекстно-зависимая модель семантического сходства для онтологических сред» . Параллелизм и вычисления: практика и опыт . 23 (2): 505–524. DOI : 10.1002 / cpe.1652 . S2CID 412845 .

[40] Ландауэр, Т.К .; Дюмэ, СТ (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» (PDF) . Психологический обзор . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . DOI : 10.1037 / 0033-295x.104.2.211 .

[41] Перейти ↑ Landauer, TK, Foltz, PW, & Laham, D. (1998). «Введение в скрытый семантический анализ» (PDF) . Дискурсивные процессы . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . DOI : 10.1080 / 01638539809545028 . CS1 maint: несколько имен: список авторов ( ссылка )

[42] "Расстояние сходства Google" .

[43] J. Камачо Колладос, MT Pilehvar и Р. Navigli. НАСАРИ: новый подход к семантическому представлению предметов. In Proceedings of the North American Chapter of the Association of Computational Linguistics (NAACL 2015), Денвер, США, стр. 567-577, 2015

[44] J. Камачо Колладос, MT Pilehvar и Р. Navigli. Единое многоязычное семантическое представление понятий. В материалах 53-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2015), Пекин, Китай, 27–29 июля, стр. 741-751, 2015 г.

[45] Fähndrich J., Weber S., Ahrndt S. (2016) Дизайн и использование меры семантического сходства для взаимодействия агентов. В: Klusch M., Unland R., Shehory O., Pokahr A., Ahrndt S. (eds) Multiagent System Technologies. MATES 2016. Lecture Notes in Computer Science, vol 9872. Springer, доступна в авторской версии.

[46] C. d'Amato, С. Стааб и Н. Fanizzi. О влиянии онтологий логики описания на концептуальное подобие. Инженерия знаний: практика и шаблоны, страницы 48-63, 2008 doi : 10.1007 / 978-3-540-87696-0_7

[47] Рубинштейн, Герберт и Джон Б. Гуденаф. Контекстные корреляты синонимии . Сообщения ACM, 8 (10): 627–633, 1965.

[48] Рубинштейн, Герберт; Гуденаф, Джон Б. (1965-10-01). «Контекстные корреляты синонимии» . Коммуникации ACM . 8 (10): 627–633. DOI : 10.1145 / 365628.365657 . S2CID 18309234 .

[49] Миллер, Джордж А .; Чарльз, Уолтер Г. (1991-01-01). «Контекстные корреляты семантического сходства». Язык и когнитивные процессы . 6 (1): 1-28. DOI : 10.1080 / 01690969108406936 . ISSN 0169-0965 .

[50] "Размещение поиска в контексте". ACM-транзакции в информационных системах (TOIS) . 20 : 116–131. 2002-01-01. DOI : 10.1145 / 503104.503110 . S2CID 12956853 .

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс