Косинусное сходство

Косинусное сходство - это мера сходства между двумя ненулевыми векторами внутреннего пространства продукта . Он определяется как равный косинусу угла между ними, который также совпадает с внутренним произведением тех же векторов, нормализованных к обоим, имеющим длину 1. Косинус 0 ° равен 1, и он меньше 1 для любого угла. в интервале $(0, π]$ радиан. Таким образом, это суждение об ориентации, а не о величине: два вектора с одинаковой ориентацией имеют косинусное сходство, равное 1, два вектора, ориентированные под углом 90 ° относительно друг друга, имеют сходство 0, а два диаметрально противоположных вектора имеют сходство - 1, независимо от их величины. Косинусное подобие особенно используется в положительном пространстве, где результат аккуратно ограничен . Название происходит от термина «направляющий косинус»: в этом случае единичные векторы максимально «похожи», если они параллельны, и максимально «несходны», если они ортогональны (перпендикулярны). Это аналогично косинусу, который равен единице (максимальное значение), когда сегменты образуют нулевой угол, и нулю (некоррелированный), когда сегменты перпендикулярны. $[0,1]$

Эти ограничения применимы для любого количества измерений, а косинусное подобие чаще всего используется в многомерных положительных пространствах. Например, при поиске информации и интеллектуальном анализе текста каждому термину условно назначается другое измерение, а документ характеризуется вектором, где значение в каждом измерении соответствует количеству раз, когда термин появляется в документе. Таким образом, косинусное сходство дает полезную меру того, насколько похожими могут быть два документа с точки зрения их предмета. ^[1]

Этот метод также используется для измерения сплоченности кластеров в области интеллектуального анализа данных . ^[2]

Термин косинусное расстояние часто используется для дополнения в положительном пространстве, то есть: где - косинусное расстояние, а - косинусное подобие. Однако важно отметить, что это неправильная метрика расстояния, поскольку она не обладает свойством неравенства треугольника - или, более формально, неравенством Шварца - и нарушает аксиому совпадения; чтобы исправить свойство неравенства треугольника при сохранении того же порядка, необходимо преобразовать в угловое расстояние (см. ниже). $D_{C}(A,B)=1-S_{C}(A,B),$ $D_{C}$ $S_{C}$

Одним из преимуществ косинусного подобия является его низкая сложность , особенно для разреженных векторов : нужно учитывать только ненулевые измерения.

Другие названия косинусного подобия - это сходство Оркини и коэффициент конгруэнтности Такера ; Сходство Очиай (см. Ниже) - это косинусное сходство, применяемое к двоичным данным.

Определение [ править ]

Косинус двух ненулевых векторов может быть получен с помощью формулы евклидова скалярного произведения :

\mathbf {A} \cdot \mathbf {B} =\left\|\mathbf {A} \right\|\left\|\mathbf {B} \right\|\cos \theta

Для двух векторов атрибутов, A и B , косинусное сходство, $cos (θ)$ , представлено с помощью скалярного произведения и величины как

{\text{similarity}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \over \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},

где и - компоненты вектора и соответственно. $A_{i}$ $B_{i}$ $A$ $B$

Результирующее подобие варьируется от -1, означающего точно противоположное, до 1, означающего точно такое же, при этом 0 указывает на ортогональность или декорреляцию , а промежуточные значения указывают на промежуточное сходство или несходство.

Для сопоставления текста векторы атрибутов A и B обычно являются векторами частотности терминов документов. Косинусное сходство можно рассматривать как метод нормализации длины документа во время сравнения.

В случае поиска информации косинусное сходство двух документов будет варьироваться от 0 до 1, поскольку частоты терминов (с использованием весов tf – idf ) не могут быть отрицательными. Угол между двумя частотными векторами не может быть больше 90 °.

Если векторы атрибутов нормализованы путем вычитания средних векторов (например, ), мера называется центрированным косинусным подобием и эквивалентна коэффициенту корреляции Пирсона . Для примера центрирования $A-{\bar {A}}$ ${\text{if}}\,A=[A_{1},A_{2}]^{T},{\text{ then }}{\bar {A}}=\left[{\frac {(A_{1}+A_{2})}{2}},{\frac {(A_{1}+A_{2})}{2}}\right]^{T},{\text{ so }}A-{\bar {A}}=\left[{\frac {(A_{1}-A_{2})}{2}},{\frac {(-A_{1}+A_{2})}{2}}\right]^{T}.$

Угловое расстояние и сходство [ править ]

Термин «косинусное подобие» иногда используется для обозначения другого определения подобия, приведенного ниже. Однако наиболее распространенное использование «косинусного подобия» определено выше, а показатели подобия и расстояния, определенные ниже, называются «угловым сходством» и «угловым расстоянием» соответственно. Нормализованный угол между векторами является формальной метрикой расстояния и может быть рассчитан на основе оценки подобия, определенной выше. ^[3] Эта метрика углового расстояния может затем использоваться для вычисления функции подобия, ограниченной от 0 до 1 включительно.

Когда элементы вектора могут быть положительными или отрицательными:

{\text{angular distance}}={\frac {\cos ^{-1}({\text{cosine similarity}})}{\pi }}

{\text{angular similarity}}=1-{\text{angular distance}}

Или, если элементы вектора всегда положительны:

{\text{angular distance}}={\frac {2\cdot \cos ^{-1}({\text{cosine similarity}})}{\pi }}

{\text{angular similarity}}=1-{\text{angular distance}}

Хотя термин «косинусное подобие» использовался для этого углового расстояния, этот термин используется как косинус угла только как удобный механизм для вычисления самого угла и не является частью смысла. Преимущество коэффициента углового подобия заключается в том, что при использовании в качестве коэффициента разности (путем вычитания его из 1) полученная функция является правильной метрикой расстояния , что не относится к первому значению. Однако для большинства применений это свойство не является важным. Для любого использования, где важен только относительный порядок сходства или расстояния в наборе векторов, то какая функция используется, не имеет значения, поскольку выбор не повлияет на результирующий порядок.

$L_{2}$ -нормированное евклидово расстояние [ править ]

Другой эффективный прокси для косинусного расстояния может быть получен $L_{2}$ нормализация векторов с последующим применением нормального евклидова расстояния. Используя этот метод, каждый член в каждом векторе сначала делится на величину вектора, в результате чего получается вектор единичной длины. Тогда очевидно, что евклидово расстояние по конечным точкам любых двух векторов является правильной метрикой, которая дает тот же порядок, что и косинусное расстояние для любого сравнения векторов, и, кроме того, позволяет избежать потенциально дорогостоящих тригонометрических операций, необходимых для получения правильного метрическая. После нормализации векторное пространство можно использовать с полным набором методов, доступных для любого евклидова пространства, в частности, стандартными методами уменьшения размерности. Это нормализованное расстояние формы, в частности, используется во многих алгоритмах глубокого обучения.

Коэффициент Оцука-Очиай [ править ]

В биологии существует аналогичное понятие , известное как коэффициент Отсука-Очиаи имени Yanosuke Otsuka (также пишется , как Otsuka, Ootsuka или Otuka, ^[4] Японский :大塚弥之助) ^[5] и Akira Очиаи ( Японский :落合明), ^[6] также известный как коэффициент Очиаи-Баркмана ^[7] или коэффициент Очиаи ^[8], который может быть представлен как:

K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}

Здесь и - множества , а - количество элементов в . Если наборы представлены как битовые векторы, можно увидеть, что коэффициент Оцука-Очиаи совпадает с косинусоидальным подобием. $A$ $B$ $|A|$ $A$

В недавней книге ^[9] коэффициент ошибочно приписывается другому японскому исследователю по фамилии Оцука. Путаница возникает из-за того, что в 1957 году Акира Очиай приписывает коэффициент только Оцуке (имя не упоминается) ^[6] , цитируя статью Икусо Хамаи ( яп .浜井生三) ^[10], который, в свою очередь, цитирует исходную статью 1936 года Яноске Оцука. ^[5]

Свойства [ править ]

Наиболее примечательным свойством косинусного сходства является то, что оно отражает относительное, а не абсолютное сравнение размеров отдельных векторов. Для любых констант и вектора векторы и максимально похожи. Таким образом, эта мера наиболее подходит для данных, где частота важнее абсолютных значений; в частности, частота употребления терминов в документах. Однако более современные метрики, основанные на теории информации, такие как Jensen-Shannon, SED и Triangular Distance, показали улучшенную семантику, по крайней мере, в некоторых контекстах.^[11] $a$ $V$ $V$ $aV$

Косинусное сходство связано с евклидовым расстоянием следующим образом. Обозначим евклидово расстояние обычным образом и заметим, что $\|A-B\|$

\|A-B\|^{2}=(A-B)^{\mathsf {T}}(A-B)=\|A\|^{2}+\|B\|^{2}-2A^{\mathsf {T}}B

путем расширения . Когда $A$ и $B$ нормализованы к единице длины, это выражение равно $\|A\|^{2}=\|B\|^{2}=1$

2(1-\cos(A,B)).

Евклидово расстояние называется хордовым расстоянием (потому что это длина хорды на единичной окружности), и это евклидово расстояние между векторами, которые были нормированы на единичную сумму квадратов значений внутри них.

Нулевое распределение: для данных, которые могут быть как отрицательными, так и положительными, нулевое распределение косинусного сходства является распределением скалярного произведения двух независимых случайных единичных векторов . Это распределение имеет среднее значение , равное нулю , и дисперсия из (где это число измерений), и хотя распределение ограничена между -1 и +1 , как растет большое распределение все более хорошо аппроксимировать нормальным распределением . ^[12]^[13] Другие типы данных, например битовые потоки. $1/n$ $n$ $n$ , которые принимают только значения 0 или 1, нулевое распределение принимает другую форму и может иметь ненулевое среднее значение. ^[14]

Мягкая косинусная мера [ править ]

Мягкий косинус или («мягкое» сходство) между двумя векторами учитывает сходство между парами объектов. ^[15] Традиционное косинусное подобие рассматривает функции модели векторного пространства (VSM) как независимые или совершенно разные, в то время как мягкая косинусная мера предлагает учитывать сходство функций в VSM, что помогает также обобщить концепцию косинуса (и мягкого косинуса). как идея (мягкого) подобия.

Например, в области обработки естественного языка (NLP) сходство между функциями довольно интуитивно. Такие функции, как слова, n -граммы или синтаксические n -граммы ^[16], могут быть очень похожими, хотя формально они рассматриваются как разные функции в VSM. Например, слова «играть» и «игра» - это разные слова и, таким образом, сопоставлены с разными точками в VSM; но они семантически связаны. В случае n -грамм или синтаксических n -грамм может применяться расстояние Левенштейна (фактически, расстояние Левенштейна может применяться и к словам).

Для вычисления мягкого косинуса матрица $s$ используется для обозначения сходства между функциями. Его можно рассчитать с помощью расстояния Левенштейна, сходства WordNet или других мер сходства . Затем мы просто умножаем на эту матрицу.

Для двух $N$ -мерных векторов и мягкое косинусное подобие вычисляется следующим образом: $a$ $b$

{\begin{aligned}\operatorname {soft\_cosine} _{1}(a,b)={\frac {\sum \nolimits _{i,j}^{N}s_{ij}a_{i}b_{j}}{{\sqrt {\sum \nolimits _{i,j}^{N}s_{ij}a_{i}a_{j}}}{\sqrt {\sum \nolimits _{i,j}^{N}s_{ij}b_{i}b_{j}}}}},\end{aligned}}

где $s ij = сходство (признак i, признак j)$ .

Если между функциями нет подобия ( $s ii = 1$ , $s ij = 0$ для $i \neq j$ ), данное уравнение эквивалентно традиционной формуле косинусного подобия.

Время сложность этой меры является квадратной, что делает его применимым для реальных задач. Обратите внимание, что сложность может быть снижена до субквадратичной. ^[17]

См. Также [ править ]

Коэффициент Соренсена – Дайса
Расстояние Хэмминга
Корреляция
Индекс Жаккара
SimRank
Поиск информации

Ссылки [ править ]

^ Singhal, Амит (2001). « Современный информационный поиск: краткий обзор ». Бюллетень IEEE Computer Society Техническим комитетом по данным инженерно 24 (4): 35-43.
^ П.-Н. Тан, М. Стейнбах и В. Кумар, Введение в интеллектуальный анализ данных , Addison-Wesley (2005), ISBN 0-321-32136-7 , глава 8; стр. 500.
^ «КОСИНЕЗАЩИТНОЕ РАССТОЯНИЕ, КОСИНЕСКОЕ ПОДОБИЕ, УГЛОВОЕ КОЗИНУСКОЕ РАССТОЯНИЕ, УГЛОВОЕ КОЗИНОВОЕ ПОДОБИЕ» . www.itl.nist.gov . Проверено 11 июля 2020 .
^ Омори, Masae (2004). «Геологическая идея Яносуке Отука, заложившего основы неотектоники (геофизика)» . Науки о Земле . 58 (4): 256–259. DOI : 10,15080 / agcjchikyukagaku.58.4_256 .
^ a b Оцука, Яноске (1936). «Фаунистический характер японских морских моллюсков плейстоцена как свидетельство похолодания климата в Японии в плейстоцене». Бюллетень Биогеографического общества Японии . 6 (16): 165–170.
^ a b Очиай, Акира (1957). «Зоогеографические исследования солеоидных рыб, найденных в Японии и соседних регионах-II» . Бюллетень Японского общества научного рыболовства . 22 (9): 526–530. DOI : 10.2331 / suisan.22.526 .
^ Баркман, Ян Дж. (1958). Фитосоциология и экология криптогамных эпифитов: включая таксономическое обследование и описание их растительных единиц в Европе . Ассен: Ван Горкум.
^ Х. Чарльз Ромесбург (1984). Кластерный анализ для исследователей . Белмонт, Калифорния: Публикации для обучения на протяжении всей жизни. п. 149.
^ Ховарт, Ричард Дж. (2017). Словарь математических наук о Земле: с историческими примечаниями . Чам, Швейцария: Springer. п. 421. DOI : 10.1007 / 978-3-319-57315-1 . ISBN 978-3-319-57314-4.
^ Хамаи, Ikuso (1955). «Стратификация сообщества с помощью« коэффициента сообщества »(продолжение)» . Японский журнал экологии . 5 (1): 41–45. DOI : 10,18960 / seitai.5.1_41 .
^ Коннор, Ричард (2016). Повесть о четырех показателях . Поиск сходства и приложения. Токио: Springer.
^ Spruill, Маркус С. (2007). «Асимптотическое распределение координат на сферах больших размеров» . Электронные коммуникации в вероятности . 12 : 234–247. DOI : 10,1214 / ECP.v12-1294 .
^ «Распределение скалярных произведений между двумя случайными единичными векторами в RD» . CrossValidated .
^ Грэм Л. Гиллер (2012). «Статистические свойства случайных битовых потоков и выборочное распределение косинусного сходства». Записки об исследовании Giller Investments (20121024/1). DOI : 10.2139 / ssrn.2167044 .
^ Сидоров, Григорий; Гельбух Александр; Гомес-Адорно, Елена; Пинто, Дэвид (29 сентября 2014 г.). «Мягкое подобие и мягкая косинусная мера: подобие элементов в модели векторного пространства» . Computación y Sistemas . 18 (3): 491–504. DOI : 10.13053 / Cys-18-3-2043 . Проверено 7 октября 2014 года .
^ Сидоров, Григорий; Веласкес, Франсиско; Стамататос, Эфстафиос; Гельбух Александр; Чанона-Эрнандес, Лилиана (2013). Достижения в области вычислительного интеллекта . Конспект лекций по информатике. 7630 . LNAI 7630. С. 1–11. DOI : 10.1007 / 978-3-642-37798-3_1 . ISBN 978-3-642-37798-3.
^ Новотны, Вит (2018). Замечания по реализации для меры мягкого косинуса . 27-я Международная конференция ACM по управлению информацией и знаниями. Торунь, Италия: Ассоциация вычислительной техники. С. 1639–1642. arXiv : 1808.09407 . DOI : 10.1145 / 3269206.3269317 . ISBN 978-1-4503-6014-2.

Внешние ссылки [ править ]

Взвешенная косинусная мера
Учебник по косинусному подобию с использованием Python

[1] Singhal, Амит (2001). « Современный информационный поиск: краткий обзор ». Бюллетень IEEE Computer Society Техническим комитетом по данным инженерно 24 (4): 35-43.

[2] П.-Н. Тан, М. Стейнбах и В. Кумар, Введение в интеллектуальный анализ данных , Addison-Wesley (2005), ISBN 0-321-32136-7 , глава 8; стр. 500.

[3] «КОСИНЕЗАЩИТНОЕ РАССТОЯНИЕ, КОСИНЕСКОЕ ПОДОБИЕ, УГЛОВОЕ КОЗИНУСКОЕ РАССТОЯНИЕ, УГЛОВОЕ КОЗИНОВОЕ ПОДОБИЕ» . www.itl.nist.gov . Проверено 11 июля 2020 .

[Omori-4] Омори, Masae (2004). «Геологическая идея Яносуке Отука, заложившего основы неотектоники (геофизика)» . Науки о Земле . 58 (4): 256–259. DOI : 10,15080 / agcjchikyukagaku.58.4_256 .

[Otsuka1936-5] Оцука, Яноске (1936). «Фаунистический характер японских морских моллюсков плейстоцена как свидетельство похолодания климата в Японии в плейстоцене». Бюллетень Биогеографического общества Японии . 6 (16): 165–170.

[Ochiai1957-6] Очиай, Акира (1957). «Зоогеографические исследования солеоидных рыб, найденных в Японии и соседних регионах-II» . Бюллетень Японского общества научного рыболовства . 22 (9): 526–530. DOI : 10.2331 / suisan.22.526 .

[Barkman1958-7] Баркман, Ян Дж. (1958). Фитосоциология и экология криптогамных эпифитов: включая таксономическое обследование и описание их растительных единиц в Европе . Ассен: Ван Горкум.

[Romesburg1984-8] Х. Чарльз Ромесбург (1984). Кластерный анализ для исследователей . Белмонт, Калифорния: Публикации для обучения на протяжении всей жизни. п. 149.

[Howarth2017-9] Ховарт, Ричард Дж. (2017). Словарь математических наук о Земле: с историческими примечаниями . Чам, Швейцария: Springer. п. 421. DOI : 10.1007 / 978-3-319-57315-1 . ISBN 978-3-319-57314-4.

[Hamai1955-10] Хамаи, Ikuso (1955). «Стратификация сообщества с помощью« коэффициента сообщества »(продолжение)» . Японский журнал экологии . 5 (1): 41–45. DOI : 10,18960 / seitai.5.1_41 .

[11] Коннор, Ричард (2016). Повесть о четырех показателях . Поиск сходства и приложения. Токио: Springer.

[12] Spruill, Маркус С. (2007). «Асимптотическое распределение координат на сферах больших размеров» . Электронные коммуникации в вероятности . 12 : 234–247. DOI : 10,1214 / ECP.v12-1294 .

[13] «Распределение скалярных произведений между двумя случайными единичными векторами в RD» . CrossValidated .

[14] Грэм Л. Гиллер (2012). «Статистические свойства случайных битовых потоков и выборочное распределение косинусного сходства». Записки об исследовании Giller Investments (20121024/1). DOI : 10.2139 / ssrn.2167044 .

[15] Сидоров, Григорий; Гельбух Александр; Гомес-Адорно, Елена; Пинто, Дэвид (29 сентября 2014 г.). «Мягкое подобие и мягкая косинусная мера: подобие элементов в модели векторного пространства» . Computación y Sistemas . 18 (3): 491–504. DOI : 10.13053 / Cys-18-3-2043 . Проверено 7 октября 2014 года .

[16] Сидоров, Григорий; Веласкес, Франсиско; Стамататос, Эфстафиос; Гельбух Александр; Чанона-Эрнандес, Лилиана (2013). Достижения в области вычислительного интеллекта . Конспект лекций по информатике. 7630 . LNAI 7630. С. 1–11. DOI : 10.1007 / 978-3-642-37798-3_1 . ISBN 978-3-642-37798-3.

[17] Новотны, Вит (2018). Замечания по реализации для меры мягкого косинуса . 27-я Международная конференция ACM по управлению информацией и знаниями. Торунь, Италия: Ассоциация вычислительной техники. С. 1639–1642. arXiv : 1808.09407 . DOI : 10.1145 / 3269206.3269317 . ISBN 978-1-4503-6014-2.

[1]