Индекс несходства

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: «Индекс несходства» - новости · газеты · книги · ученый · JSTOR ( июль 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Индекс несходства является демографическим показателем ровности , с которой две групп распределены по компонентным географическим районам , которые составляют большую площадь. Показатель индекса также можно интерпретировать как процент одной из двух групп, включенных в расчет, которой пришлось бы переместиться в разные географические области, чтобы получить распределение, соответствующее распределению в большей области. Индекс несходства может использоваться как мера сегрегации.

Основная формула [ править ]

Основная формула индекса несходства:

{\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} \ left | {\ frac {a_ {i}} {A}} - {\ frac {b_ { i}} {B}} \ right |}

где (например, сравнивая черно-белое население):

a _i = население группы A в i- ^м районе, например, переписной участок

A = общая численность населения в группе A в крупном географическом объекте, для которого рассчитывается индекс несходства.

b _i = население группы B в i- ^м районе

B = общая численность населения в группе B в крупном географическом объекте, для которого рассчитывается индекс несходства.

Индекс несходства применим к любой категориальной переменной (демографической или нет) и благодаря своим простым свойствам полезен для ввода в программы многомерного масштабирования и кластеризации. Он широко использовался при изучении социальной мобильности для сравнения распределения профессиональных категорий происхождения (или назначения).

Перспектива линейной алгебры [ править ]

Формулу индекса несходства можно сделать гораздо более компактной и содержательной, если рассматривать ее с точки зрения линейной алгебры . Предположим, мы изучаем распределение богатых и бедных в городе (например, в Лондоне ). Допустим, в нашем городе есть кварталы: ${\ displaystyle N}$

${\ displaystyle \ {{\ text {block 1}}, {\ text {block 2}}, \ ldots, {\ text {block N}} \}}$

Создадим вектор, показывающий количество богатых людей в каждом квартале нашего города: ${\ displaystyle \ mathbf {r}}$

${\ Displaystyle \ mathbf {r} = [r_ {1}, r_ {2}, \ cdots, r_ {N}]}$

Точно так же давайте создадим вектор, который показывает количество бедных в каждом квартале нашего города: ${\ displaystyle \ mathbf {p}}$

${\ Displaystyle \ mathbf {p} = [p_ {1}, p_ {2}, \ cdots, p_ {N}]}$

Теперь -норма вектора - это просто сумма (величина) каждой записи в этом векторе. ^[1] То есть для вектора у нас есть -норма: ${\ displaystyle L ^ {1}}$ ${\ Displaystyle \ mathbf {v} = [v_ {1}, v_ {2}, \ cdots, v_ {N}]}$ ${\ displaystyle L ^ {1}}$

${\ displaystyle | \ mathbf {v} | _ {1} = \ sum _ {i = 1} ^ {N} | v_ {i} |}$

Если мы обозначим как общее количество богатых людей в нашем городе, то компактным способом вычисления будет использование -norm: ${\ displaystyle R}$ ${\ displaystyle R}$ ${\ displaystyle L ^ {1}}$

${\ Displaystyle R = | \ mathbf {r} | _ {1} = \ sum _ {i = 1} ^ {N} | r_ {i} |}$

Точно так же, если обозначить как общее количество бедных в нашем городе, то: ${\ displaystyle P}$

$P=|\mathbf {p} |_{1}=\sum _{i=1}^{N}|p_{i}|$

Когда мы делим вектор на его норму, мы получаем то, что называется нормализованным вектором или единичным вектором : $\mathbf {v}$ ${\hat {\mathbf {v} }}$

${\hat {\mathbf {v} }}={\frac {\mathbf {v} }{|\mathbf {v} |_{1}}}$

Нормализуем вектор богатства и вектор бедности : $\mathbf {r}$ $\mathbf {p}$

${\hat {\mathbf {r} }}={\frac {\mathbf {r} }{|\mathbf {r} |_{1}}}={\frac {\mathbf {r} }{R}}$

${\hat {\mathbf {p} }}={\frac {\mathbf {p} }{|\mathbf {r} |_{1}}}={\frac {\mathbf {p} }{P}}$

Наконец, вернемся к формуле для индекса несходства ( ); он просто равен половине нормы разницы между векторами и : $D$ $L^{1}$ ${\hat {\mathbf {r} }}$ ${\hat {\mathbf {p} }}$

Индекс несходства
(в линейной алгебраической записи)

$D={\frac {1}{2}}|{\hat {\mathbf {r} }}-{\hat {\mathbf {p} }}|_{1}$

Числовой пример [ править ]

Рассмотрим город, состоящий из четырех кварталов по 2 человека в каждом. Один блок состоит из 2-х богатых людей. Один блок состоит из 2 бедных людей. Два блока состоят из 1 богатого и 1 бедного человека. Каков показатель непохожести этого города?

В нашем вымышленном городе 4 квартала: в одном - 2 богатых человека; в другом - 2 бедных человека; и два блока, содержащие 1 богатого и 1 бедного человека.

Во-первых, давайте найдем богатый вектор и плохой вектор : $\mathbf {r}$ $\mathbf {p}$

$\mathbf {r} =[2,0,1,1]$

$\mathbf {p} =[0,2,1,1]$

Далее посчитаем общее количество богатых и бедных в нашем городе:

$R=2+0+1+1=4$

$P=0+2+1+1=4$

Затем давайте нормализуем богатые и бедные векторы:

${\hat {\mathbf {r} }}={\frac {\mathbf {r} }{R}}={\frac {1}{4}}[2,0,1,1]=[0.5,0,0.25,0.25]$

${\hat {\mathbf {p} }}={\frac {\mathbf {p} }{P}}={\frac {1}{4}}[0,2,1,1]=[0,0.5,0.25,0.25]$

Теперь мы можем вычислить разницу : ${\hat {\mathbf {r} }}-{\hat {\mathbf {p} }}$

${\hat {\mathbf {r} }}-{\hat {\mathbf {p} }}=[0.5,0,0.25,0.25]-[0,0.5,0.25,0.25]=[0.5,-0.5,0,0]$

Наконец, найдем индекс несходства ( ): $D$

$D={\frac {1}{2}}|{\hat {\mathbf {r} }}-{\hat {\mathbf {p} }}|_{1}={\frac {1}{2}}(|0.5|+|-0.5|)=0.5$

Эквивалентность формул [ править ]

Мы можем доказать, что линейная алгебраическая формула для идентична основной формуле для . Начнем с формулы линейной алгебры: $D$ $D$

$D={\frac {1}{2}}|{\hat {\mathbf {r} }}-{\hat {\mathbf {p} }}|_{1}$

Заменим нормализованные векторы и на: $\mathbf {r}$ $\mathbf {p}$

$D={\frac {1}{2}}\left|{\frac {\mathbf {r} }{R}}-{\frac {\mathbf {p} }{P}}\right|_{1}$

Наконец, из определения -нормы мы знаем, что можем заменить ее суммированием: $L^{1}$

$D={\frac {1}{2}}\sum _{i=1}^{N}|{\frac {r_{i}}{R}}-{\frac {p_{i}}{P}}|$

Таким образом, мы доказываем, что формула линейной алгебры для индекса несходства эквивалентна основной формуле для него:

$D={\frac {1}{2}}|{\hat {\mathbf {r} }}-{\hat {\mathbf {p} }}|_{1}={\frac {1}{2}}\sum _{i=1}^{N}|{\frac {r_{i}}{R}}-{\frac {p_{i}}{P}}|$

Нулевая сегрегация [ править ]

Когда индекс несходства равен нулю, это означает, что в изучаемом нами сообществе отсутствует сегрегация. Например, если мы изучаем сегрегацию богатых и бедных людей в городе, то если это означает, что: $D=0$

В городе нет кварталов, которые были бы «богатыми кварталами», и в городе нет кварталов, которые были бы «бедными кварталами».
Богатые и бедные люди равномерно распределены по всему городу.

Если мы зададим линейную алгебраическую формулу, мы получим необходимое условие для нулевой сегрегации: $D=0$

$\mathbf {\hat {r}} =\mathbf {\hat {p}}$