Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Косинусное сходство - это мера сходства между двумя ненулевыми векторами внутреннего пространства продукта . Он определяется как равный косинусу угла между ними, который также совпадает с внутренним произведением тех же векторов, нормализованных к обоим, имеющим длину 1. Косинус 0 ° равен 1, и он меньше 1 для любого угла. в интервале (0, π] радиан. Таким образом, это суждение об ориентации, а не о величине: два вектора с одинаковой ориентацией имеют косинусное сходство, равное 1, два вектора, ориентированные под углом 90 ° относительно друг друга, имеют сходство 0, а два диаметрально противоположных вектора имеют сходство - 1, независимо от их величины. Косинусное подобие особенно используется в положительном пространстве, где результат аккуратно ограничен . Название происходит от термина «направляющий косинус»: в этом случае единичные векторы максимально «похожи», если они параллельны, и максимально «несходны», если они ортогональны (перпендикулярны). Это аналогично косинусу, который равен единице (максимальное значение), когда сегменты образуют нулевой угол, и нулю (некоррелированный), когда сегменты перпендикулярны.

Эти ограничения применимы для любого количества измерений, а косинусное подобие чаще всего используется в многомерных положительных пространствах. Например, при поиске информации и интеллектуальном анализе текста каждому термину условно назначается другое измерение, а документ характеризуется вектором, где значение в каждом измерении соответствует количеству раз, когда термин появляется в документе. Таким образом, косинусное сходство дает полезную меру того, насколько похожими могут быть два документа с точки зрения их предмета. [1]

Этот метод также используется для измерения сплоченности кластеров в области интеллектуального анализа данных . [2]

Термин косинусное расстояние часто используется для дополнения в положительном пространстве, то есть: где - косинусное расстояние, а - косинусное подобие. Однако важно отметить, что это неправильная метрика расстояния, поскольку она не обладает свойством неравенства треугольника - или, более формально, неравенством Шварца - и нарушает аксиому совпадения; чтобы исправить свойство неравенства треугольника при сохранении того же порядка, необходимо преобразовать в угловое расстояние (см. ниже).

Одним из преимуществ косинусного подобия является его низкая сложность , особенно для разреженных векторов : нужно учитывать только ненулевые измерения.

Другие названия косинусного подобия - это сходство Оркини и коэффициент конгруэнтности Такера ; Сходство Очиай (см. Ниже) - это косинусное сходство, применяемое к двоичным данным.

Определение [ править ]

Косинус двух ненулевых векторов может быть получен с помощью формулы евклидова скалярного произведения :

Для двух векторов атрибутов, A и B , косинусное сходство, cos (θ) , представлено с помощью скалярного произведения и величины как

где и - компоненты вектора и соответственно.

Результирующее подобие варьируется от -1, означающего точно противоположное, до 1, означающего точно такое же, при этом 0 указывает на ортогональность или декорреляцию , а промежуточные значения указывают на промежуточное сходство или несходство.

Для сопоставления текста векторы атрибутов A и B обычно являются векторами частотности терминов документов. Косинусное сходство можно рассматривать как метод нормализации длины документа во время сравнения.

В случае поиска информации косинусное сходство двух документов будет варьироваться от 0 до 1, поскольку частоты терминов (с использованием весов tf – idf ) не могут быть отрицательными. Угол между двумя частотными векторами не может быть больше 90 °.

Если векторы атрибутов нормализованы путем вычитания средних векторов (например, ), мера называется центрированным косинусным подобием и эквивалентна коэффициенту корреляции Пирсона . Для примера центрирования

Угловое расстояние и сходство [ править ]

Термин «косинусное подобие» иногда используется для обозначения другого определения подобия, приведенного ниже. Однако наиболее распространенное использование «косинусного подобия» определено выше, а показатели подобия и расстояния, определенные ниже, называются «угловым сходством» и «угловым расстоянием» соответственно. Нормализованный угол между векторами является формальной метрикой расстояния и может быть рассчитан на основе оценки подобия, определенной выше. [3] Эта метрика углового расстояния может затем использоваться для вычисления функции подобия, ограниченной от 0 до 1 включительно.

Когда элементы вектора могут быть положительными или отрицательными:

Или, если элементы вектора всегда положительны:

Хотя термин «косинусное подобие» использовался для этого углового расстояния, этот термин используется как косинус угла только как удобный механизм для вычисления самого угла и не является частью смысла. Преимущество коэффициента углового подобия заключается в том, что при использовании в качестве коэффициента разности (путем вычитания его из 1) полученная функция является правильной метрикой расстояния , что не относится к первому значению. Однако для большинства применений это свойство не является важным. Для любого использования, где важен только относительный порядок сходства или расстояния в наборе векторов, то какая функция используется, не имеет значения, поскольку выбор не повлияет на результирующий порядок.

-нормированное евклидово расстояние [ править ]

Другой эффективный прокси для косинусного расстояния может быть получен нормализация векторов с последующим применением нормального евклидова расстояния. Используя этот метод, каждый член в каждом векторе сначала делится на величину вектора, в результате чего получается вектор единичной длины. Тогда очевидно, что евклидово расстояние по конечным точкам любых двух векторов является правильной метрикой, которая дает тот же порядок, что и косинусное расстояние для любого сравнения векторов, и, кроме того, позволяет избежать потенциально дорогостоящих тригонометрических операций, необходимых для получения правильного метрическая. После нормализации векторное пространство можно использовать с полным набором методов, доступных для любого евклидова пространства, в частности, стандартными методами уменьшения размерности. Это нормализованное расстояние формы, в частности, используется во многих алгоритмах глубокого обучения.


Коэффициент Оцука-Очиай [ править ]

В биологии существует аналогичное понятие , известное как коэффициент Отсука-Очиаи имени Yanosuke Otsuka (также пишется , как Otsuka, Ootsuka или Otuka, [4] Японский :大塚弥之助) [5] и Akira Очиаи ( Японский :落合明), [6] также известный как коэффициент Очиаи-Баркмана [7] или коэффициент Очиаи [8], который может быть представлен как:

Здесь и - множества , а - количество элементов в . Если наборы представлены как битовые векторы, можно увидеть, что коэффициент Оцука-Очиаи совпадает с косинусоидальным подобием.

В недавней книге [9] коэффициент ошибочно приписывается другому японскому исследователю по фамилии Оцука. Путаница возникает из-за того, что в 1957 году Акира Очиай приписывает коэффициент только Оцуке (имя не упоминается) [6] , цитируя статью Икусо Хамаи ( яп .浜 井 生 三) [10], который, в свою очередь, цитирует исходную статью 1936 года Яноске Оцука. [5]

Свойства [ править ]

Наиболее примечательным свойством косинусного сходства является то, что оно отражает относительное, а не абсолютное сравнение размеров отдельных векторов. Для любых констант и вектора векторы и максимально похожи. Таким образом, эта мера наиболее подходит для данных, где частота важнее абсолютных значений; в частности, частота употребления терминов в документах. Однако более современные метрики, основанные на теории информации, такие как Jensen-Shannon, SED и Triangular Distance, показали улучшенную семантику, по крайней мере, в некоторых контекстах.[11]

Косинусное сходство связано с евклидовым расстоянием следующим образом. Обозначим евклидово расстояние обычным образом и заметим, что

путем расширения . Когда A и B нормализованы к единице длины, это выражение равно

Евклидово расстояние называется хордовым расстоянием (потому что это длина хорды на единичной окружности), и это евклидово расстояние между векторами, которые были нормированы на единичную сумму квадратов значений внутри них.

Нулевое распределение: для данных, которые могут быть как отрицательными, так и положительными, нулевое распределение косинусного сходства является распределением скалярного произведения двух независимых случайных единичных векторов . Это распределение имеет среднее значение , равное нулю , и дисперсия из (где это число измерений), и хотя распределение ограничена между -1 и +1 , как растет большое распределение все более хорошо аппроксимировать нормальным распределением . [12] [13] Другие типы данных, например битовые потоки., которые принимают только значения 0 или 1, нулевое распределение принимает другую форму и может иметь ненулевое среднее значение. [14]

Мягкая косинусная мера [ править ]

Мягкий косинус или («мягкое» сходство) между двумя векторами учитывает сходство между парами объектов. [15] Традиционное косинусное подобие рассматривает функции модели векторного пространства (VSM) как независимые или совершенно разные, в то время как мягкая косинусная мера предлагает учитывать сходство функций в VSM, что помогает также обобщить концепцию косинуса (и мягкого косинуса). как идея (мягкого) подобия.

Например, в области обработки естественного языка (NLP) сходство между функциями довольно интуитивно. Такие функции, как слова, n -граммы или синтаксические n -граммы [16], могут быть очень похожими, хотя формально они рассматриваются как разные функции в VSM. Например, слова «играть» и «игра» - это разные слова и, таким образом, сопоставлены с разными точками в VSM; но они семантически связаны. В случае n -грамм или синтаксических n -грамм может применяться расстояние Левенштейна (фактически, расстояние Левенштейна может применяться и к словам).

Для вычисления мягкого косинуса матрица s используется для обозначения сходства между функциями. Его можно рассчитать с помощью расстояния Левенштейна, сходства WordNet или других мер сходства . Затем мы просто умножаем на эту матрицу.

Для двух N -мерных векторов и мягкое косинусное подобие вычисляется следующим образом:

где s ij = сходство (признак i , признак j ) .

Если между функциями нет подобия ( s ii = 1 , s ij = 0 для ij ), данное уравнение эквивалентно традиционной формуле косинусного подобия.

Время сложность этой меры является квадратной, что делает его применимым для реальных задач. Обратите внимание, что сложность может быть снижена до субквадратичной. [17]

См. Также [ править ]

  • Коэффициент Соренсена – Дайса
  • Расстояние Хэмминга
  • Корреляция
  • Индекс Жаккара
  • SimRank
  • Поиск информации

Ссылки [ править ]

  1. ^ Singhal, Амит (2001). « Современный информационный поиск: краткий обзор ». Бюллетень IEEE Computer Society Техническим комитетом по данным инженерно 24 (4): 35-43.
  2. ^ П.-Н. Тан, М. Стейнбах и В. Кумар, Введение в интеллектуальный анализ данных , Addison-Wesley (2005), ISBN  0-321-32136-7 , глава 8; стр. 500.
  3. ^ «КОСИНЕЗАЩИТНОЕ РАССТОЯНИЕ, КОСИНЕСКОЕ ПОДОБИЕ, УГЛОВОЕ КОЗИНУСКОЕ РАССТОЯНИЕ, УГЛОВОЕ КОЗИНОВОЕ ПОДОБИЕ» . www.itl.nist.gov . Проверено 11 июля 2020 .
  4. ^ Омори, Masae (2004). «Геологическая идея Яносуке Отука, заложившего основы неотектоники (геофизика)» . Науки о Земле . 58 (4): 256–259. DOI : 10,15080 / agcjchikyukagaku.58.4_256 .
  5. ^ a b Оцука, Яноске (1936). «Фаунистический характер японских морских моллюсков плейстоцена как свидетельство похолодания климата в Японии в плейстоцене». Бюллетень Биогеографического общества Японии . 6 (16): 165–170.
  6. ^ a b Очиай, Акира (1957). «Зоогеографические исследования солеоидных рыб, найденных в Японии и соседних регионах-II» . Бюллетень Японского общества научного рыболовства . 22 (9): 526–530. DOI : 10.2331 / suisan.22.526 .
  7. ^ Баркман, Ян Дж. (1958). Фитосоциология и экология криптогамных эпифитов: включая таксономическое обследование и описание их растительных единиц в Европе . Ассен: Ван Горкум.
  8. ^ Х. Чарльз Ромесбург (1984). Кластерный анализ для исследователей . Белмонт, Калифорния: Публикации для обучения на протяжении всей жизни. п. 149.
  9. ^ Ховарт, Ричард Дж. (2017). Словарь математических наук о Земле: с историческими примечаниями . Чам, Швейцария: Springer. п. 421. DOI : 10.1007 / 978-3-319-57315-1 . ISBN 978-3-319-57314-4.
  10. ^ Хамаи, Ikuso (1955). «Стратификация сообщества с помощью« коэффициента сообщества »(продолжение)» . Японский журнал экологии . 5 (1): 41–45. DOI : 10,18960 / seitai.5.1_41 .
  11. ^ Коннор, Ричард (2016). Повесть о четырех показателях . Поиск сходства и приложения. Токио: Springer.
  12. ^ Spruill, Маркус С. (2007). «Асимптотическое распределение координат на сферах больших размеров» . Электронные коммуникации в вероятности . 12 : 234–247. DOI : 10,1214 / ECP.v12-1294 .
  13. ^ «Распределение скалярных произведений между двумя случайными единичными векторами в RD» . CrossValidated .
  14. ^ Грэм Л. Гиллер (2012). «Статистические свойства случайных битовых потоков и выборочное распределение косинусного сходства». Записки об исследовании Giller Investments (20121024/1). DOI : 10.2139 / ssrn.2167044 .
  15. ^ Сидоров, Григорий; Гельбух Александр; Гомес-Адорно, Елена; Пинто, Дэвид (29 сентября 2014 г.). «Мягкое подобие и мягкая косинусная мера: подобие элементов в модели векторного пространства» . Computación y Sistemas . 18 (3): 491–504. DOI : 10.13053 / Cys-18-3-2043 . Проверено 7 октября 2014 года .
  16. ^ Сидоров, Григорий; Веласкес, Франсиско; Стамататос, Эфстафиос; Гельбух Александр; Чанона-Эрнандес, Лилиана (2013). Достижения в области вычислительного интеллекта . Конспект лекций по информатике. 7630 . LNAI 7630. С. 1–11. DOI : 10.1007 / 978-3-642-37798-3_1 . ISBN 978-3-642-37798-3.
  17. ^ Новотны, Вит (2018). Замечания по реализации для меры мягкого косинуса . 27-я Международная конференция ACM по управлению информацией и знаниями. Торунь, Италия: Ассоциация вычислительной техники. С. 1639–1642. arXiv : 1808.09407 . DOI : 10.1145 / 3269206.3269317 . ISBN 978-1-4503-6014-2.

Внешние ссылки [ править ]

  • Взвешенная косинусная мера
  • Учебник по косинусному подобию с использованием Python