Косинусное сходство - это мера сходства между двумя ненулевыми векторами внутреннего пространства продукта . Он определяется как равный косинусу угла между ними, который также совпадает с внутренним произведением тех же векторов, нормализованных к обоим, имеющим длину 1. Косинус 0 ° равен 1, и он меньше 1 для любого угла. в интервале (0, π] радиан. Таким образом, это суждение об ориентации, а не о величине: два вектора с одинаковой ориентацией имеют косинусное сходство, равное 1, два вектора, ориентированные под углом 90 ° относительно друг друга, имеют сходство 0, а два диаметрально противоположных вектора имеют сходство - 1, независимо от их величины. Косинусное подобие особенно используется в положительном пространстве, где результат аккуратно ограничен . Название происходит от термина «направляющий косинус»: в этом случае единичные векторы максимально «похожи», если они параллельны, и максимально «несходны», если они ортогональны (перпендикулярны). Это аналогично косинусу, который равен единице (максимальное значение), когда сегменты образуют нулевой угол, и нулю (некоррелированный), когда сегменты перпендикулярны.
Эти ограничения применимы для любого количества измерений, а косинусное подобие чаще всего используется в многомерных положительных пространствах. Например, при поиске информации и интеллектуальном анализе текста каждому термину условно назначается другое измерение, а документ характеризуется вектором, где значение в каждом измерении соответствует количеству раз, когда термин появляется в документе. Таким образом, косинусное сходство дает полезную меру того, насколько похожими могут быть два документа с точки зрения их предмета. [1]
Этот метод также используется для измерения сплоченности кластеров в области интеллектуального анализа данных . [2]
Термин косинусное расстояние часто используется для дополнения в положительном пространстве, то есть: где - косинусное расстояние, а - косинусное подобие. Однако важно отметить, что это неправильная метрика расстояния, поскольку она не обладает свойством неравенства треугольника - или, более формально, неравенством Шварца - и нарушает аксиому совпадения; чтобы исправить свойство неравенства треугольника при сохранении того же порядка, необходимо преобразовать в угловое расстояние (см. ниже).
Одним из преимуществ косинусного подобия является его низкая сложность , особенно для разреженных векторов : нужно учитывать только ненулевые измерения.
Другие названия косинусного подобия - это сходство Оркини и коэффициент конгруэнтности Такера ; Сходство Очиай (см. Ниже) - это косинусное сходство, применяемое к двоичным данным.
Определение [ править ]
Косинус двух ненулевых векторов может быть получен с помощью формулы евклидова скалярного произведения :
Для двух векторов атрибутов, A и B , косинусное сходство, cos (θ) , представлено с помощью скалярного произведения и величины как
где и - компоненты вектора и соответственно.
Результирующее подобие варьируется от -1, означающего точно противоположное, до 1, означающего точно такое же, при этом 0 указывает на ортогональность или декорреляцию , а промежуточные значения указывают на промежуточное сходство или несходство.
Для сопоставления текста векторы атрибутов A и B обычно являются векторами частотности терминов документов. Косинусное сходство можно рассматривать как метод нормализации длины документа во время сравнения.
В случае поиска информации косинусное сходство двух документов будет варьироваться от 0 до 1, поскольку частоты терминов (с использованием весов tf – idf ) не могут быть отрицательными. Угол между двумя частотными векторами не может быть больше 90 °.
Если векторы атрибутов нормализованы путем вычитания средних векторов (например, ), мера называется центрированным косинусным подобием и эквивалентна коэффициенту корреляции Пирсона . Для примера центрирования
Угловое расстояние и сходство [ править ]
Термин «косинусное подобие» иногда используется для обозначения другого определения подобия, приведенного ниже. Однако наиболее распространенное использование «косинусного подобия» определено выше, а показатели подобия и расстояния, определенные ниже, называются «угловым сходством» и «угловым расстоянием» соответственно. Нормализованный угол между векторами является формальной метрикой расстояния и может быть рассчитан на основе оценки подобия, определенной выше. [3] Эта метрика углового расстояния может затем использоваться для вычисления функции подобия, ограниченной от 0 до 1 включительно.
Когда элементы вектора могут быть положительными или отрицательными:
Или, если элементы вектора всегда положительны:
Хотя термин «косинусное подобие» использовался для этого углового расстояния, этот термин используется как косинус угла только как удобный механизм для вычисления самого угла и не является частью смысла. Преимущество коэффициента углового подобия заключается в том, что при использовании в качестве коэффициента разности (путем вычитания его из 1) полученная функция является правильной метрикой расстояния , что не относится к первому значению. Однако для большинства применений это свойство не является важным. Для любого использования, где важен только относительный порядок сходства или расстояния в наборе векторов, то какая функция используется, не имеет значения, поскольку выбор не повлияет на результирующий порядок.
-нормированное евклидово расстояние [ править ]
Другой эффективный прокси для косинусного расстояния может быть получен нормализация векторов с последующим применением нормального евклидова расстояния. Используя этот метод, каждый член в каждом векторе сначала делится на величину вектора, в результате чего получается вектор единичной длины. Тогда очевидно, что евклидово расстояние по конечным точкам любых двух векторов является правильной метрикой, которая дает тот же порядок, что и косинусное расстояние для любого сравнения векторов, и, кроме того, позволяет избежать потенциально дорогостоящих тригонометрических операций, необходимых для получения правильного метрическая. После нормализации векторное пространство можно использовать с полным набором методов, доступных для любого евклидова пространства, в частности, стандартными методами уменьшения размерности. Это нормализованное расстояние формы, в частности, используется во многих алгоритмах глубокого обучения.
Коэффициент Оцука-Очиай [ править ]
В биологии существует аналогичное понятие , известное как коэффициент Отсука-Очиаи имени Yanosuke Otsuka (также пишется , как Otsuka, Ootsuka или Otuka, [4] Японский :大塚弥之助) [5] и Akira Очиаи ( Японский :落合明), [6] также известный как коэффициент Очиаи-Баркмана [7] или коэффициент Очиаи [8], который может быть представлен как:
Здесь и - множества , а - количество элементов в . Если наборы представлены как битовые векторы, можно увидеть, что коэффициент Оцука-Очиаи совпадает с косинусоидальным подобием.
В недавней книге [9] коэффициент ошибочно приписывается другому японскому исследователю по фамилии Оцука. Путаница возникает из-за того, что в 1957 году Акира Очиай приписывает коэффициент только Оцуке (имя не упоминается) [6] , цитируя статью Икусо Хамаи ( яп .浜 井 生 三) [10], который, в свою очередь, цитирует исходную статью 1936 года Яноске Оцука. [5]
Свойства [ править ]
Наиболее примечательным свойством косинусного сходства является то, что оно отражает относительное, а не абсолютное сравнение размеров отдельных векторов. Для любых констант и вектора векторы и максимально похожи. Таким образом, эта мера наиболее подходит для данных, где частота важнее абсолютных значений; в частности, частота употребления терминов в документах. Однако более современные метрики, основанные на теории информации, такие как Jensen-Shannon, SED и Triangular Distance, показали улучшенную семантику, по крайней мере, в некоторых контекстах.[11]
Косинусное сходство связано с евклидовым расстоянием следующим образом. Обозначим евклидово расстояние обычным образом и заметим, что
путем расширения . Когда A и B нормализованы к единице длины, это выражение равно
Евклидово расстояние называется хордовым расстоянием (потому что это длина хорды на единичной окружности), и это евклидово расстояние между векторами, которые были нормированы на единичную сумму квадратов значений внутри них.
Нулевое распределение: для данных, которые могут быть как отрицательными, так и положительными, нулевое распределение косинусного сходства является распределением скалярного произведения двух независимых случайных единичных векторов . Это распределение имеет среднее значение , равное нулю , и дисперсия из (где это число измерений), и хотя распределение ограничена между -1 и +1 , как растет большое распределение все более хорошо аппроксимировать нормальным распределением . [12] [13] Другие типы данных, например битовые потоки., которые принимают только значения 0 или 1, нулевое распределение принимает другую форму и может иметь ненулевое среднее значение. [14]
Мягкая косинусная мера [ править ]
Мягкий косинус или («мягкое» сходство) между двумя векторами учитывает сходство между парами объектов. [15] Традиционное косинусное подобие рассматривает функции модели векторного пространства (VSM) как независимые или совершенно разные, в то время как мягкая косинусная мера предлагает учитывать сходство функций в VSM, что помогает также обобщить концепцию косинуса (и мягкого косинуса). как идея (мягкого) подобия.
Например, в области обработки естественного языка (NLP) сходство между функциями довольно интуитивно. Такие функции, как слова, n -граммы или синтаксические n -граммы [16], могут быть очень похожими, хотя формально они рассматриваются как разные функции в VSM. Например, слова «играть» и «игра» - это разные слова и, таким образом, сопоставлены с разными точками в VSM; но они семантически связаны. В случае n -грамм или синтаксических n -грамм может применяться расстояние Левенштейна (фактически, расстояние Левенштейна может применяться и к словам).
Для вычисления мягкого косинуса матрица s используется для обозначения сходства между функциями. Его можно рассчитать с помощью расстояния Левенштейна, сходства WordNet или других мер сходства . Затем мы просто умножаем на эту матрицу.
Для двух N -мерных векторов и мягкое косинусное подобие вычисляется следующим образом:
где s ij = сходство (признак i , признак j ) .
Если между функциями нет подобия ( s ii = 1 , s ij = 0 для i ≠ j ), данное уравнение эквивалентно традиционной формуле косинусного подобия.
Время сложность этой меры является квадратной, что делает его применимым для реальных задач. Обратите внимание, что сложность может быть снижена до субквадратичной. [17]
См. Также [ править ]
- Коэффициент Соренсена – Дайса
- Расстояние Хэмминга
- Корреляция
- Индекс Жаккара
- SimRank
- Поиск информации
Ссылки [ править ]
- ^ Singhal, Амит (2001). « Современный информационный поиск: краткий обзор ». Бюллетень IEEE Computer Society Техническим комитетом по данным инженерно 24 (4): 35-43.
- ^ П.-Н. Тан, М. Стейнбах и В. Кумар, Введение в интеллектуальный анализ данных , Addison-Wesley (2005), ISBN 0-321-32136-7 , глава 8; стр. 500.
- ^ «КОСИНЕЗАЩИТНОЕ РАССТОЯНИЕ, КОСИНЕСКОЕ ПОДОБИЕ, УГЛОВОЕ КОЗИНУСКОЕ РАССТОЯНИЕ, УГЛОВОЕ КОЗИНОВОЕ ПОДОБИЕ» . www.itl.nist.gov . Проверено 11 июля 2020 .
- ^ Омори, Masae (2004). «Геологическая идея Яносуке Отука, заложившего основы неотектоники (геофизика)» . Науки о Земле . 58 (4): 256–259. DOI : 10,15080 / agcjchikyukagaku.58.4_256 .
- ^ a b Оцука, Яноске (1936). «Фаунистический характер японских морских моллюсков плейстоцена как свидетельство похолодания климата в Японии в плейстоцене». Бюллетень Биогеографического общества Японии . 6 (16): 165–170.
- ^ a b Очиай, Акира (1957). «Зоогеографические исследования солеоидных рыб, найденных в Японии и соседних регионах-II» . Бюллетень Японского общества научного рыболовства . 22 (9): 526–530. DOI : 10.2331 / suisan.22.526 .
- ^ Баркман, Ян Дж. (1958). Фитосоциология и экология криптогамных эпифитов: включая таксономическое обследование и описание их растительных единиц в Европе . Ассен: Ван Горкум.
- ^ Х. Чарльз Ромесбург (1984). Кластерный анализ для исследователей . Белмонт, Калифорния: Публикации для обучения на протяжении всей жизни. п. 149.
- ^ Ховарт, Ричард Дж. (2017). Словарь математических наук о Земле: с историческими примечаниями . Чам, Швейцария: Springer. п. 421. DOI : 10.1007 / 978-3-319-57315-1 . ISBN 978-3-319-57314-4.
- ^ Хамаи, Ikuso (1955). «Стратификация сообщества с помощью« коэффициента сообщества »(продолжение)» . Японский журнал экологии . 5 (1): 41–45. DOI : 10,18960 / seitai.5.1_41 .
- ^ Коннор, Ричард (2016). Повесть о четырех показателях . Поиск сходства и приложения. Токио: Springer.
- ^ Spruill, Маркус С. (2007). «Асимптотическое распределение координат на сферах больших размеров» . Электронные коммуникации в вероятности . 12 : 234–247. DOI : 10,1214 / ECP.v12-1294 .
- ^ «Распределение скалярных произведений между двумя случайными единичными векторами в RD» . CrossValidated .
- ^ Грэм Л. Гиллер (2012). «Статистические свойства случайных битовых потоков и выборочное распределение косинусного сходства». Записки об исследовании Giller Investments (20121024/1). DOI : 10.2139 / ssrn.2167044 .
- ^ Сидоров, Григорий; Гельбух Александр; Гомес-Адорно, Елена; Пинто, Дэвид (29 сентября 2014 г.). «Мягкое подобие и мягкая косинусная мера: подобие элементов в модели векторного пространства» . Computación y Sistemas . 18 (3): 491–504. DOI : 10.13053 / Cys-18-3-2043 . Проверено 7 октября 2014 года .
- ^ Сидоров, Григорий; Веласкес, Франсиско; Стамататос, Эфстафиос; Гельбух Александр; Чанона-Эрнандес, Лилиана (2013). Достижения в области вычислительного интеллекта . Конспект лекций по информатике. 7630 . LNAI 7630. С. 1–11. DOI : 10.1007 / 978-3-642-37798-3_1 . ISBN 978-3-642-37798-3.
- ^ Новотны, Вит (2018). Замечания по реализации для меры мягкого косинуса . 27-я Международная конференция ACM по управлению информацией и знаниями. Торунь, Италия: Ассоциация вычислительной техники. С. 1639–1642. arXiv : 1808.09407 . DOI : 10.1145 / 3269206.3269317 . ISBN 978-1-4503-6014-2.
Внешние ссылки [ править ]
- Взвешенная косинусная мера
- Учебник по косинусному подобию с использованием Python