Из Википедии, свободной энциклопедии
Перейти к навигацииПерейти к поиску

Коэффициент Соренсена – Дайса (другие названия см. Ниже) - это статистика, используемая для оценки сходства двух выборок . Она была разработана независимо друг от друга с помощью ботаников Турвалд Соренсен [1] и Ли Рэймонд кубиком , [2] , которые опубликованы в 1948 и 1945 соответственно.

Имя

Индекс известен под несколькими другими названиями, особенно индекс Соренсена – Дайса , [3] индекс Соренсена и коэффициент Дайса . Другие варианты включают в себя «коэффициент подобия» или «индекс», такой как коэффициент подобия Дайса ( DSC ). Обычные альтернативные варианты написания для Соренсена - Соренсон , Соеренсон и Соренсон , и все три также можно увидеть с окончанием –sen .

Другие названия включают:

Формула

Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как

где | X | и | Y | - мощности двух наборов (т. е. количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.

При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как

.

Он отличается от индекса Жаккара, который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC является коэффициентом подобия и находится в диапазоне от 0 до 1. [9] Его можно рассматривать как меру подобия по множествам.

Подобно индексу Жаккара , операции над множеством могут быть выражены в терминах векторных операций над двоичными векторами a и b :

который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенный общий объем информации (пересечение) по сумме мощностей: [10]

При использовании в качестве меры сходства строк коэффициент может быть вычислен для двух строк, x и y, с использованием биграмм следующим образом: [11]

где n t - количество символьных биграмм в обеих строках, n x - количество биграмм в строке x, а n y - количество биграмм в строке y . Например, чтобы вычислить сходство между:

night
nacht

Мы бы нашли набор биграмм в каждом слове:

{ ni, ig, gh, ht}
{ na, ac, ch, ht}

Каждый набор состоит из четырех элементов, и пересечение этих двух множеств имеет только один элемент: ht.

Подставляя эти числа в формулу, вычисляем s  = (2 · 1) / (4 + 4) = 0,25.

Отличие от Жаккара

Этот коэффициент не сильно отличается по форме от индекса Жаккара . Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса, можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения и .

Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрическую версию индекса Жаккара. [4]

Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности

не является правильной метрикой расстояния, так как не удовлетворяет неравенству треугольника . [4] Простейший контрпример этому дается тремя наборами {a}, {b} и {a, b}, расстояние между первыми двумя равными 1, а разница между третьим и каждым из остальных одна третья. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Соренсена-Дайса полезен для данных по экологическому сообществу (например, Looman & Campbell, 1960 [12] ). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически оно может быть оправдано как пересечение двух нечетких множеств [13] ). По сравнению с евклидовым расстоянием расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. [14] В последнее время показатель Dice (и его вариации, например, logDice, логарифмирующий его) стал популярным в компьютерной лексикографии для измерения показателя лексической ассоциации двух заданных слов. [15]logDice также используется как часть Mash Distance для оценки расстояния генома и метагенома [16]. Наконец, Dice используется при сегментации изображений , в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях. [8]

Версия изобилия

Выражение легко распространяется на численность вместо наличия / отсутствия видов. Эта количественная версия известна под несколькими названиями:

  • Количественный индекс Соренсена – Дайса [4]
  • Количественный индекс Соренсена [4]
  • Количественный индекс игральных костей [4]
  • Сходство Брея-Кертиса (1 минус несходство Брея-Кертиса ) [4]
  • Количественный индекс Чекановского [4]
  • Индекс Штейнхауза [4]
  • Процентное сходство Пиелу [4]
  • 1 минус расстояние Хеллингера [17]
  • Доля конкретного согласия [18] или положительного согласия [19]

См. Также

  • Корреляция
  • Оценка F1
  • Индекс Жаккара
  • Расстояние Хэмминга
  • Каминный тест
  • Индекс перекрытия Мориситы
  • Наиболее часто встречающиеся символы k
  • Коэффициент перекрытия
  • Индекс сходства Ренконена (по Олави Ренконену )
  • Индекс Тверски
  • Универсальная теория адаптивной стратегии (UAST)

Ссылки

  1. ^ Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на датских территориях». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
  2. ^ Дайс, Ли Р. (1945). «Меры величины экологической ассоциации между видами». Экология . 26 (3): 297–302. DOI : 10.2307 / 1932409 . JSTOR 1932409 . 
  3. ^ a b Carass, A .; Рой, С .; Gherman, A .; Рейнхольд, JC; Джессон, А .; и другие. (2020). «Оценка сегментов поражения белой материи с помощью уточненного анализа Соренсена-Дайса» . Научные отчеты . 10 (1): 8242. Bibcode : 2020NatSR..10.8242C . DOI : 10.1038 / s41598-020-64803-ш . ISSN 2045-2322 . PMC 7237671 . PMID 32427874 .   
  4. ^ a b c d e f g h i j Gallagher, ED, 1999. Документация COMPAH , Массачусетский университет, Бостон.
  5. ^ Nei, M .; Ли, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции» . PNAS . 76 (10): 5269–5273. Bibcode : 1979PNAS ... 76.5269N . DOI : 10.1073 / pnas.76.10.5269 . PMC 413122 . PMID 291943 .  
  6. ^ Прескотт, JW; Pennell, M .; Best, TM; Swanson, MS; Haq, F .; Jackson, R .; Гуркан, Миннесота (2009). Автоматический метод сегментации бедренной кости для исследования остеоартрита . IEEE. DOI : 10.1109 / iembs.2009.5333257 . PMC 2826829 . 
  7. ^ Swanson, MS; Прескотт, JW; Best, TM; Powell, K .; Джексон, РД; Haq, F .; Гуркан, Миннесота (2010). «Полуавтоматическая сегментация для оценки бокового мениска в нормальных и остеоартрозных коленях» . Остеоартроз и хрящ . 18 (3): 344–353. DOI : 10.1016 / j.joca.2009.10.004 . ISSN 1063-4584 . PMC 2826568 . PMID 19857510 .   
  8. ^ a b Zijdenbos, AP; Давант, Б.М.; Марголин Р.А.; Палмер, AC (1994). «Морфометрический анализ поражений белого вещества на МРТ: метод и проверка». IEEE Transactions по медицинской визуализации . 13 (4): 716–724. DOI : 10.1109 / 42.363096 . ISSN 0278-0062 . PMID 18218550 .  
  9. ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
  10. ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск . Лондон: Баттервортс. ISBN 3-642-12274-4.
  11. ^ Kondrak, Гжегож; Марку, Даниэль; Рыцарь, Кевин (2003). «Cognates может улучшить модели статистического перевода» (PDF) . Материалы HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики . С. 46–48.
  12. ^ Looman, J .; Кэмпбелл, Дж. Б. (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология . 41 (3): 409–416. DOI : 10.2307 / 1933315 . JSTOR 19333 15 . 
  13. Перейти ↑ Roberts, DW (1986). «Рукоположение на основе теории нечетких множеств». Vegetatio . 66 (3): 123–131. DOI : 10.1007 / BF00039905 . S2CID 12573576 . 
  14. ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Разработка программного обеспечения Mjm; ISBN 0-9721290-0-6 . 
  15. ^ Rychlý, P. (2008) лексикограф дружественного счет ассоциации. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9
  16. ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояния между геномом и метагеномом с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
  17. ^ Брей, Дж. Роджер; Кертис, JT (1957). «Посвящение горным лесным общинам Южного Висконсина». Экологические монографии . 27 (4): 326–349. DOI : 10.2307 / 1942268 . JSTOR 1942268 . 
  18. ^ Аяппа, Инду; Норман, Роберт G (2000). «Неинвазивное обнаружение возбуждений, связанных с респираторным усилием (RERA) с помощью назальной канюли / системы датчика давления». Спать . 23 (6).
  19. ^ Джон Uebersax. «Индексы сырых соглашений» .

Внешние ссылки