Коэффициент Соренсена – Дайса (другие названия см. Ниже) - это статистика, используемая для оценки сходства двух выборок . Она была разработана независимо друг от друга с помощью ботаников Турвалд Соренсен [1] и Ли Рэймонд кубиком , [2] , которые опубликованы в 1948 и 1945 соответственно.
Имя
Индекс известен под несколькими другими названиями, особенно индекс Соренсена – Дайса , [3] индекс Соренсена и коэффициент Дайса . Другие варианты включают в себя «коэффициент подобия» или «индекс», такой как коэффициент подобия Дайса ( DSC ). Обычные альтернативные варианты написания для Соренсена - Соренсон , Соеренсон и Соренсон , и все три также можно увидеть с окончанием –sen .
Другие названия включают:
Формула
Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как
где | X | и | Y | - мощности двух наборов (т. е. количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.
При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как
- .
Он отличается от индекса Жаккара, который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC является коэффициентом подобия и находится в диапазоне от 0 до 1. [9] Его можно рассматривать как меру подобия по множествам.
Подобно индексу Жаккара , операции над множеством могут быть выражены в терминах векторных операций над двоичными векторами a и b :
который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.
Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоение общей информации (пересечение) по сумме мощностей: [10]
При использовании в качестве меры сходства строк коэффициент может быть вычислен для двух строк, x и y, с использованием биграмм следующим образом: [11]
где n t - количество символьных биграмм в обеих строках, n x - количество биграмм в строке x, а n y - количество биграмм в строке y . Например, чтобы вычислить сходство между:
night
nacht
Мы бы нашли набор биграмм в каждом слове:
- {
ni
,ig
,gh
,ht
} - {
na
,ac
,ch
,ht
}
Каждый набор состоит из четырех элементов, и пересечение этих двух множеств имеет только один элемент: ht
.
Подставляя эти числа в формулу, вычисляем s = (2 · 1) / (4 + 4) = 0,25.
Отличие от Жаккара
Этот коэффициент не сильно отличается по форме от индекса Жаккара . Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса, можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения а также .
Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрическую версию индекса Жаккара. [4]
Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности
не является правильной метрикой расстояния, так как не удовлетворяет неравенству треугольника . [4] Простейший контрпример этому дается тремя наборами {a}, {b} и {a, b}, расстояние между первыми двумя равными 1, а разница между третьим и каждым из остальных треть. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.
Приложения
Коэффициент Соренсена-Дайса полезен для данных по экологическому сообществу (например, Looman & Campbell, 1960 [12] ). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически оно может быть оправдано как пересечение двух нечетких множеств [13] ). По сравнению с евклидовым расстоянием расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. [14] В последнее время показатель Dice (и его вариации, например, logDice, логарифмирующий его) стал популярным в компьютерной лексикографии для измерения показателя лексической ассоциации двух заданных слов. [15] logDice также используется как часть Mash Distance для оценки расстояния генома и метагенома [16] Наконец, Dice используется при сегментации изображений , в частности, для сравнения выходных данных алгоритмов с эталонными масками в медицинских приложениях. [8]
Версия изобилия
Выражение легко распространяется на численность вместо наличия / отсутствия видов. Эта количественная версия известна под несколькими названиями:
- Количественный индекс Соренсена – Дайса [4]
- Количественный индекс Соренсена [4]
- Количественный индекс игральных костей [4]
- Сходство Брея-Кертиса (1 минус несходство Брея-Кертиса ) [4]
- Количественный индекс Чекановского [4]
- Индекс Штейнхауза [4]
- Процентное сходство Пиелу [4]
- 1 минус расстояние Хеллингера [17]
- Доля конкретного согласия [18] или положительного согласия [19]
Смотрите также
- Корреляция
- Оценка F1
- Индекс Жаккара
- Расстояние Хэмминга
- Каминный тест
- Индекс перекрытия Мориситы
- Наиболее часто встречающиеся символы k
- Коэффициент перекрытия
- Индекс сходства Ренконена (по Олави Ренконену )
- Индекс Тверски
- Универсальная теория адаптивной стратегии (UAST)
Рекомендации
- ^ Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на датских территориях». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
- ^ Дайс, Ли Р. (1945). «Меры величины экологической ассоциации между видами». Экология . 26 (3): 297–302. DOI : 10.2307 / 1932409 . JSTOR 1932409 .
- ^ а б Карасс, А .; Рой, С .; Gherman, A .; Рейнхольд, JC; Джессон, А .; и другие. (2020). «Оценка сегментов поражения белой материи с помощью уточненного анализа Соренсена-Дайса» . Научные отчеты . 10 (1): 8242. Bibcode : 2020NatSR..10.8242C . DOI : 10.1038 / s41598-020-64803-ш . ISSN 2045-2322 . PMC 7237671 . PMID 32427874 .
- ^ a b c d e f g h i j Gallagher, ED, 1999. Документация COMPAH , Массачусетский университет, Бостон.
- ^ Nei, M .; Ли, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции» . PNAS . 76 (10): 5269–5273. Bibcode : 1979PNAS ... 76.5269N . DOI : 10.1073 / pnas.76.10.5269 . PMC 413122 . PMID 291943 .
- ^ Прескотт, JW; Pennell, M .; Best, TM; Swanson, MS; Haq, F .; Jackson, R .; Гуркан, Миннесота (2009). Автоматический метод сегментации бедренной кости для исследования остеоартрита . IEEE. DOI : 10.1109 / iembs.2009.5333257 . PMC 2826829 .
- ^ Swanson, MS; Прескотт, JW; Best, TM; Powell, K .; Джексон, РД; Haq, F .; Гуркан, Миннесота (2010). «Полуавтоматическая сегментация для оценки бокового мениска в нормальных и остеоартрозных коленях» . Остеоартроз и хрящ . 18 (3): 344–353. DOI : 10.1016 / j.joca.2009.10.004 . ISSN 1063-4584 . PMC 2826568 . PMID 19857510 .
- ^ а б Zijdenbos, AP; Давант, Б.М.; Марголин Р.А.; Палмер, AC (1994). «Морфометрический анализ поражений белого вещества на МРТ: метод и проверка». IEEE Transactions по медицинской визуализации . 13 (4): 716–724. DOI : 10.1109 / 42.363096 . ISSN 0278-0062 . PMID 18218550 .
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
- ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск . Лондон: Баттервортс. ISBN 3-642-12274-4.
- ^ Кондрак, Гжегож; Марку, Даниэль; Рыцарь, Кевин (2003). «Cognates может улучшить модели статистического перевода» (PDF) . Материалы HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики . С. 46–48.
- ^ Looman, J .; Кэмпбелл, Дж. Б. (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология . 41 (3): 409–416. DOI : 10.2307 / 1933315 . JSTOR 19333 15 .
- ^ Робертс, DW (1986). «Рукоположение на основе теории нечетких множеств». Vegetatio . 66 (3): 123–131. DOI : 10.1007 / BF00039905 . S2CID 12573576 .
- ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Разработка программного обеспечения Mjm; ISBN 0-9721290-0-6 .
- ^ Rychlý, P. (2008) лексикограф дружественного счет ассоциации. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9
- ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояния между геномом и метагеномом с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
- ^ Брей, Дж. Роджер; Кертис, JT (1957). «Посвящение горным лесным общинам Южного Висконсина». Экологические монографии . 27 (4): 326–349. DOI : 10.2307 / 1942268 . JSTOR 1942268 .
- ^ Аяппа, Инду; Норман, Роберт G (2000). «Неинвазивное обнаружение возбуждений, связанных с респираторным усилием (RERA) с помощью назальной канюли / системы датчика давления». Спать . 23 (6).
- ^ Джон Юберсакс. «Индексы сырых соглашений» .