Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Индекс разнообразия (называемый также филогенетическое или индекс разнообразия Симпсона ) является количественной мерой , которая отражает , сколько различных типов (например, видов ) имеются в наборе данных (общины) и которые могут одновременно принимать во внимание филогенетические отношения между частными лицами распределенных среди этих типов, например, насыщенность , расхождение или ровность . [1] Эти индексы представляют собой статистические представления биоразнообразия в различных аспектах ( богатство , равномерность и доминирование ).

Богатство [ править ]

Richness R просто количественно определяет, сколько различных типов содержит интересующий набор данных. Например, видовое богатство (обычно обозначаемое буквой S ) набора данных - это количество различных видов в соответствующем списке видов. Богатство - это простая мера, поэтому он стал популярным индексом разнообразия в экологии, где данные о численности часто недоступны для интересующих наборов данных. Поскольку богатство не принимает во внимание изобилие типов, это не то же самое, что разнообразие, которое действительно принимает во внимание изобилие. Однако, если истинное разнообразие рассчитывается с q = 0 [ требуется пояснение ] , эффективное количество типов ( 0 D ) равно фактическому количеству типов (R ). [2] [3]

Индекс Шеннона [ править ]

Индекс Шеннона был популярным индексом разнообразия в экологической литературе, где он также известен как индекс Шеннона разнообразия , Шеннон Wiener индекс , и (ошибочно) Шеннон Weaver индекс . [4] Эта мера была первоначально предложена Клодом Шенноном в 1948 году для количественной оценки энтропии (отсюда энтропии Шеннона , связанной с информационным содержанием Шеннона ) в строках текста. [5]Идея состоит в том, что чем больше разных букв и чем больше их пропорциональное количество в интересующей строке, тем труднее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего рассчитывается так:

где p i - доля символов, принадлежащих i- му типу букв в интересующей строке. В экологии p i часто представляет собой долю особей, принадлежащих к i- му виду в интересующем наборе данных. Затем энтропия Шеннона количественно определяет неопределенность в прогнозировании видовой принадлежности особи, которая случайным образом выбирается из набора данных.

Хотя здесь уравнение записано в натуральном логарифме, основание логарифма, используемое при вычислении энтропии Шеннона, может быть выбрано произвольно. Сам Шеннон обсуждал основания логарифмов 2, 10 и e , и с тех пор они стали самыми популярными основаниями в приложениях, использующих энтропию Шеннона. Каждая логическая база соответствует разным единицам измерения, которые называются двоичными цифрами (битами), десятичными цифрами (decits) и натуральными цифрами (nats) для оснований 2, 10 и e соответственно. Для сравнения значений энтропии Шеннона, которые были первоначально рассчитаны с разными логарифмическими базами, необходимо преобразовать их в одну и ту же логарифмическую базу: переход от базы a к базе b получается умножением на log b.а . [5]

Было показано, что индекс Шеннона основан на средневзвешенном геометрическом значении пропорциональной численности типов и равен логарифму истинного разнообразия, рассчитанному с q = 1 : [6]

Это также можно написать

что равно

Поскольку сумма значений p i по определению равна единице, знаменатель равен средневзвешенному геометрическому среднему значению p i , причем сами значения p i используются в качестве весов (показателей степени в уравнении). Таким образом, член в скобках равен истинному разнообразию 1 D , а H ' равно ln ( 1 D ) . [7] [6] [3]

Когда все типы в интересующем наборе данных одинаковы, все значения p i равны 1 / R , и, следовательно, индекс Шеннона принимает значение ln ( R ) . Чем неравномернее распространенность типов, тем больше средневзвешенное геометрическое значение p i и меньше соответствующая энтропия Шеннона. Если практически все изобилие сосредоточено на одном типе, а другие типы очень редки (даже если их много), энтропия Шеннона приближается к нулю. Когда в наборе данных только один тип, энтропия Шеннона в точности равна нулю (нет никакой неопределенности в предсказании типа следующей случайно выбранной сущности).

Энтропия Реньи [ править ]

Энтропии Рения представляет собой обобщение энтропии Шеннона к другим значениям д единицы. Это может быть выражено:

что равно

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .

Индекс Симпсона [ править ]

Индекс Симпсона был введен в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при классификации людей по типам. [8] Тот же индекс был заново открыт Оррисом К. Херфиндалом в 1950 году. [9] Квадратный корень из индекса уже был введен в 1945 году экономистом Альбертом О. Хиршманом . [10] В результате тот же показатель обычно известен как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля – Хиршмана (HHI) в экономике.

Эта мера равна вероятности того, что два объекта, выбранных случайным образом из интересующего набора данных, представляют один и тот же тип. [8] Это равно:

,

где R - богатство (общее количество типов в наборе данных). Это уравнение также равно взвешенному среднему арифметическому пропорциональных количеств p i интересующих типов, причем сами пропорциональные численности используются в качестве весов. [7] Пропорциональная численность по определению ограничена значениями от нуля до единицы, но это средневзвешенное арифметическое значение, следовательно, λ ≥ 1 / R , которое достигается, когда все типы одинаково многочисленны.

Сравнивая уравнение, используемое для вычисления λ, с уравнениями, используемыми для вычисления истинного разнообразия, можно видеть, что 1 / λ равно 2 D , то есть истинному разнообразию, рассчитанному с q = 2 . Таким образом, исходный индекс Симпсона равен соответствующей базовой сумме. [2]

Интерпретация λ как вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных, представляют один и тот же тип, предполагает, что первый объект заменяется в наборе данных перед тем, как взять второй объект. Если набор данных очень большой, выборка без замены дает примерно такой же результат, но в небольших наборах данных разница может быть значительной. Если набор данных невелик и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках составляет:

где n i - количество сущностей, принадлежащих к i- му типу, а N - общее количество сущностей в наборе данных. [8] Эта форма индекса Симпсона также известна в микробиологии как индекс Хантера-Гастона. [11]

Поскольку средняя пропорциональная численность типов увеличивается с уменьшением числа типов и увеличением численности наиболее распространенного типа, λ получает небольшие значения в наборах данных с большим разнообразием и большие значения в наборах данных с низким разнообразием. Это противоречит интуиции для индекса разнообразия, поэтому вместо этого часто использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Наиболее популярными из таких индексов были обратный индекс Симпсона (1 / λ) и индекс Джини – Симпсона (1 - λ). [7] [2] Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо соблюдать осторожность, чтобы избежать случайного сравнения различных индексов, как если бы они были одними и теми же.

Обратный индекс Симпсона [ править ]

Обратный индекс Симпсона равен:

Это просто равно истинному разнообразию порядка 2, то есть эффективному количеству типов, которое получается, когда взвешенное среднее арифметическое используется для количественной оценки среднего пропорционального количества типов в интересующем наборе данных.

Индекс также используется как показатель эффективного числа сторон .

Индекс Джини – Симпсона [ править ]

Исходный индекс Симпсона λ равен вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных (с заменой), представляют один и тот же тип. Следовательно, его преобразование 1 - λ равно вероятности того, что два объекта представляют разные типы. Эта мера также известна в экологии как вероятность межвидовой встречи ( PIE ) [12] и индекс Джини – Симпсона. [2] Это можно выразить как преобразование истинного разнообразия 2-го порядка:

Индекс Гиббса – Мартина исследований социологии, психологии и менеджмента [13], также известный как индекс Блау, является той же мерой, что и индекс Джини – Симпсона.

В популяционной генетике это количество также известно как ожидаемая гетерозиготность .

Индекс Бергера – Паркера [ править ]

Индекс Бергера – Паркера [14] равен максимальному значению p i в наборе данных, то есть пропорциональной численности наиболее распространенного типа. Это соответствует взвешенному обобщенным средней части р я значение , когда д стремится к бесконечности, и , следовательно , равно обратный истинного многообразия порядка бесконечности ( 1 / D ).

Эффективное количество видов или количество холмов [ править ]

Когда в экологии используются индексы разнообразия , представляющими интерес типами обычно являются виды, но они также могут быть другими категориями, такими как роды , семейства , функциональные типы или гаплотипы . Представляющими интерес объектами обычно являются отдельные растения или животные, а мерой численности может быть, например, количество особей, биомасса или покрытие. В демографии интересующими субъектами могут быть люди, а интересующие типы - различные демографические группы. В информатике, объекты могут быть символами, а типы - разными буквами алфавита. Наиболее часто используемые индексы разнообразия - это простые преобразования эффективного числа типов (также известного как `` истинное разнообразие ''), но каждый индекс разнообразия также может интерпретироваться сам по себе как мера, соответствующая некоторому реальному явлению (но другому). для каждого индекса разнообразия). [7] [2] [6] [3]

Многие индексы учитывают только категориальное различие между субъектами или объектами. Однако такие индексы не учитывают общую вариативность (разнообразие), которая может иметь место между субъектами или объектами, которая возникает только при расчете как категориального, так и качественного разнообразия.

Истинное разнообразие, или эффективное количество типов, относится к количеству одинаково распространенных типов, необходимых для того, чтобы средняя пропорциональная численность типов была равна той, которая наблюдается в интересующем наборе данных (где все типы не могут быть одинаково многочисленными). Истинное разнообразие в наборе данных рассчитывается, сначала беря взвешенное обобщенное среднее значение M q −1 пропорциональной численности типов в наборе данных, а затем принимая обратную величину . Уравнение: [6] [3]

Знаменатель М д -1 равен среднее пропорциональное обилие типов в наборе данных, вычисленные с взвешенным обобщенным средним с показателем д -1 . В уравнении R - это богатство (общее количество типов в наборе данных), а пропорциональная численность i- го типа равна p i . Сами пропорциональные количества используются в качестве номинальных весов. Эти числа называются числами Хилла порядка q или эффективным числом видов . [15]

Когда q = 1 , указанное выше уравнение не определено. Однако математический предел, когда q приближается к 1, хорошо определен, и соответствующее разнесение рассчитывается по следующему уравнению:

которая представляет собой экспоненту энтропии Шеннона, вычисленную с использованием натуральных логарифмов (см. выше). В других областях эта статистика также известна как недоумение .

Значение q часто называют порядком разнообразия. Он определяет чувствительность значения разнообразия к редким и многочисленным видам, изменяя способ расчета средневзвешенного значения пропорциональной численности видов. При некоторых значениях параметра q значение M q −1 предполагает знакомые виды взвешенного среднего как особые случаи. В частности, q = 0 соответствует взвешенному среднему гармоническому , q = 1 средневзвешенному геометрическому и q = 2 средневзвешенному арифметическому . По мере приближения qбесконечности , взвешенное обобщенное среднее с показателем q −1 приближается к максимальному значению p i , которое является пропорциональной численностью наиболее массовых видов в наборе данных. Как правило, увеличение значения q увеличивает эффективный вес, придаваемый наиболее многочисленным видам. Это приводит к получению большего значения M q -1 и меньшего значения истинного разнообразия ( q D ) с увеличением q .

Когда q = 1 , используется средневзвешенное геометрическое значение p i , и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом значении веса являются показателями степени). Когда q > 1 , вес, придаваемый многочисленным видам, преувеличен, а когда q <1 , вес, придаваемый редким видам, равен. При q = 0 веса видов точно исключают пропорциональную численность видов, так что средневзвешенное значение значений p i равно 1 / R, даже если все виды не одинаково многочисленны. При q = 0, Эффективное количество видов, 0 D , следовательно , равно фактическое число видов R . В контексте разнообразия q обычно ограничивается неотрицательными значениями. Это происходит потому , что отрицательные значения ц дадут редкие видов намного больше веса , чем те , которые обильные кв D будут превышать R . [6] [3]

Общее уравнение разнообразия часто записывают в виде [7] [2]

а член в круглых скобках называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с различными значениями q . [2]

См. Также [ править ]

  • Альфа-разнообразие
  • Бета-разнообразие
  • Культурное разнообразие
  • Фактическое количество партий , индекс разнообразия, применяемый к политическим партиям
  • Гамма-разнообразие
  • Обобщенный индекс энтропии
  • Коэффициент Джини
  • Индекс изоляции
  • Измерение биоразнообразия
  • Качественная вариация
  • Относительное изобилие
  • Видовое разнообразие
  • Видовое богатство

Ссылки [ править ]

  1. ^ Такер, Кэролайн М .; Cadotte, Marc W .; Карвалью, Сильвия Б .; Дэвис, Т. Джонатан; Феррье, Саймон; Fritz, Susanne A .; Греньер, Рич; Helmus, Matthew R .; Джин, Ланна С. (май 2017 г.). «Руководство по филогенетическим метрикам для сохранения, экологии сообществ и макроэкологии: Руководство по филогенетическим метрикам для экологии» . Биологические обзоры . 92 (2): 698–715. DOI : 10.1111 / brv.12252 . PMC  5096690 . PMID  26785932 .
  2. ^ Б с д е е г Jost, L (2006). «Энтропия и разнообразие». Ойкос . 113 (2): 363–375. DOI : 10.1111 / j.2006.0030-1299.14714.x .
  3. ^ а б в г д Туомисто, Х (2010). «Единая терминология для количественной оценки видового разнообразия? Да, существует». Oecologia . 164 (4): 853–860. Bibcode : 2010Oecol.164..853T . DOI : 10.1007 / s00442-010-1812-0 . PMID 20978798 . 
  4. ^ Спеллерберг, Ян Ф. и Питер Дж. Федор. (2003) Дань уважения Клоду Шеннону (1916–2001) и призыв к более строгому использованию видового богатства, видового разнообразия и индекса «Шеннона – Винера». Глобальная экология и биогеография 12.3, 177-179.
  5. ^ a b Шеннон, CE (1948) Математическая теория коммуникации . Технический журнал Bell System, 27, 379–423 и 623–656.
  6. ^ а б в г д Туомисто, Х (2010). «Разнообразие бета-разнообразия: исправление ошибочной концепции. Часть 1. Определение бета-разнообразия как функции альфа- и гамма-разнообразия». Экография . 33 : 2–22. DOI : 10.1111 / j.1600-0587.2009.05880.x .
  7. ^ а б в г д Хилл, Миссури (1973). «Разнообразие и ровность: объединяющая нотация и ее последствия». Экология . 54 (2): 427–432. DOI : 10.2307 / 1934352 . JSTOR 1934352 . 
  8. ^ a b c Симпсон, Э. Х. (1949). «Измерение разнообразия» . Природа . 163 (4 148): 688. Bibcode : 1949Natur.163..688S . DOI : 10.1038 / 163688a0 .
  9. ^ Herfindahl, OC (1950) Концентрация в сталелитейной промышленности США. Неопубликованная докторская диссертация, Колумбийский университет.
  10. ^ Hirschman, AO (1945) Национальная власть и структура внешней торговли. Беркли.
  11. ^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминирующей способности систем набора текста: приложение индекса разнообразия Симпсона» . J Clin Microbiol . 26 (11): 2465–2466. DOI : 10.1128 / JCM.26.11.2465-2466.1988 . PMC 266921 . PMID 3069867 .  
  12. ^ Hurlbert, SH (1971). «Непонятие видового разнообразия: критика и альтернативные параметры». Экология . 52 (4): 577–586. DOI : 10.2307 / 1934145 . JSTOR 1934145 . PMID 28973811 .  
  13. ^ Гиббс, Джек П .; Уильям Т. Мартин (1962). «Урбанизация, технологии и разделение труда». Американский социологический обзор . 27 (5): 667–677. DOI : 10.2307 / 2089624 . JSTOR 2089624 . 
  14. ^ Бергер, Вольфганг Х .; Паркер, Фрэнсис Л. (июнь 1970 г.). «Разнообразие планктонных фораминифер в глубоководных отложениях». Наука . 168 (3937): 1345–1347. Bibcode : 1970Sci ... 168.1345B . DOI : 10.1126 / science.168.3937.1345 . PMID 17731043 . 
  15. ^ Чао, Энн; Чиу, Чун-Хо; Jost, Лу (2016), "филогенетического разнообразия мер и их декомпозиция: Рамки , основанные на Hill Numbers", по сохранению биоразнообразия и филогенетической систематики , Springer International Publishing, стр 141-172,. Дои : 10.1007 / 978-3-319-22461 -9_8 , ISBN 9783319224602

Дальнейшее чтение [ править ]

  • Колинво, Пол А. (1973). Введение в экологию . Вайли. ISBN 0-471-16498-4.
  • Обложка, Томас М .; Томас, Джой А. (1991). Элементы теории информации . Вайли. ISBN 0-471-06259-6. См. Главу 5, где подробно описаны процедуры кодирования, неформально описанные выше.
  • Чао, А .; Шен, Т.Дж. (2003). «Непараметрическая оценка индекса разнообразия Шеннона при наличии в выборке невидимых видов» (PDF) . Экологическая и экологическая статистика . 10 (4): 429–443. DOI : 10,1023 / A: 1026096204727 .

Внешние ссылки [ править ]

  • Индекс разнообразия Симпсона
  • Индексы разнообразия дают несколько примеров оценок индекса Симпсона для реальных экосистем.