Распределение по рангам

Ранговое распределение населения стран следует растянутому экспоненциальному распределению ^[1], за исключением случаев двух « королей »: Китая и Индии .

Распределение Ранг размера является распределение размера по рангу, в порядке убывания размера. Например, если набор данных состоит из элементов размеров 5, 100, 5 и 8, распределение размера ранга будет 100, 8, 5, 5 (ранги с 1 по 4). Это также известно как рангово-частотное распределение , когда исходные данные взяты из частотного распределения . Они особенно интересны, когда данные значительно различаются по масштабу, например по размеру города или частоте встречаемости слов. Эти распределения часто следуют распределению по степенному закону или менее известным, таким как растянутая экспоненциальная функция или параболическое фрактальное распределение , по крайней мере, приблизительно для определенных диапазонов рангов; Смотри ниже.

Распределение рангового размера не является распределением вероятностей или кумулятивной функцией распределения . Скорее, это дискретная форма функции квантиля (обратное кумулятивное распределение) в обратном порядке, дающая размер элемента в данном ранге.

Простое распределение рангов [ править ]

В случае городского населения результирующее распределение в стране, регионе или мире будет характеризоваться его крупнейшим городом, при этом другие города будут уменьшаться в размерах соответственно этому, сначала быстро, а затем более медленно. Это приводит к тому, что несколько крупных городов и гораздо большее количество городов на несколько порядков меньше. Например, город с рейтингом 3 будет иметь одну треть населения крупнейшего города страны, город с рейтингом 4 будет иметь четверть населения крупнейшего города и так далее. ^[2]^{[ циркулярная ссылка ]}^[3]^{[ циркулярная ссылка ]}

При ранжировании любого лог-линейного фактора ранги следуют числам Люка , которые состоят из последовательно добавляемых чисел 1, 3, 4, 7, 11, 18, 29, 47, 76, 123, 199 и т. Д. знаменитая последовательность Фибоначчи , каждое число примерно в 1,618 ( золотое сечение ) умножено на предыдущее число. Например, третий член в приведенной выше последовательности, 4, приблизительно равен 1,618 ³ или 4,236; четвертый член, 7, приблизительно равен 1,618 ⁴ , или 6,854; восьмой член, 47, приблизительно равен 1,618 ⁸ , или 46,979. При более высоких значениях цифры сходятся. Логарифмическая спираль иногда используются для визуализации таких последовательностей.

Сегментация [ править ]

График частоты слов в Википедии, показывающий три сегмента с разным поведением.

Распределение размера ранга (или частоты ранга) часто делится на диапазоны. Это часто делается несколько произвольно или из-за внешних факторов, особенно из-за сегментации рынка , но также может быть связано с различным поведением при изменении ранга.

Чаще всего раздачу можно разделить на две части, называемые « голова» и « хвост» . Если распределение разбито на три части, третья (средняя) часть будет состоять из нескольких частей, как правило, среднего , ^[4] также живота , ^[5] туловища , ^[6] и тела . ^[7] К ним часто добавляются некоторые прилагательные, наиболее значимо длинный хвост , также толстый живот , ^[5] короткая середина и т. Д. В более традиционных терминах их можно назвать верхним , средним и нижним уровнем..

Относительные размеры и веса этих сегментов (сколько рангов в каждом сегменте и какая доля от общей численности населения находится в данном сегменте) качественно характеризуют распределение, аналогично асимметрии или эксцессу распределения вероятностей. А именно: преобладают ли в нем несколько ведущих участников (с тяжелыми головами, как прибыль в индустрии звукозаписи), или в нем доминируют многие мелкие участники (с тяжелыми хвостами, как с поисковыми запросами в Интернете), или они распределены каким-либо другим образом? Практически это определяет стратегию: на чем сосредоточить внимание?

Эти различия могут проводиться по разным причинам. Например, они могут возникать из-за различных свойств населения, как в принципе 90–9–1 , который утверждает, что в интернет-сообществе 90% участников сообщества только просматривают контент, 9% участников редактируют контент. , и 1% участников активно создают новый контент. В качестве другого примера в маркетинге можно прагматично рассматривать главу как всех участников, которым уделяется персональное внимание, например, личные телефонные звонки; в то время как хвост - это все остальное, которому не уделяется индивидуального внимания, например получение стандартных писем ; и линия просто устанавливается в точке, доступной для ресурсов, или в точке, где есть смысл остановиться с точки зрения бизнеса.

Чисто количественно, традиционный способ разделения распределения на голову и хвост состоит в том, чтобы рассматривать голову как первую часть p рангов, которая составляет от общей популяции, как в принципе Парето 80:20 , где верхние 20% (голова) составляет 80% от общей численности населения. Точное ограничение зависит от распределения - каждое распределение имеет одну такую точку отсечения - и для степенных законов может быть вычислено из индекса Парето . ${\ displaystyle 1-p}$

Сегменты могут возникать естественным образом из-за фактических изменений в поведении распределения при изменении ранга. Наиболее распространенным является эффект короля , когда поведение верхней горстки элементов не соответствует образцу остальных, как показано наверху для населения страны и выше для наиболее распространенных слов в английской Википедии. Для более высоких рангов поведение может в какой-то момент измениться и хорошо моделироваться различными отношениями в разных регионах; в целом кусочной функцией . Например, если два разных степенных закона лучше подходят для разных регионов, можно использовать нарушенный степенной закон для общего отношения; частота слов в английской Википедии (вверху) также демонстрирует это.

Распределение Юла – Саймона, которое является результатом предпочтительной привязанности (интуитивно «богатые становятся богаче» и «успех порождает успех»), моделирует нарушенный степенной закон и, как было показано, «очень хорошо фиксирует» частотное распределение слов в сравнении с ранговым распределением. ^[8] Оно возникло из попытки объяснить соотношение популяции и ранга у разных видов. Также было показано, что он лучше соответствует городскому населению по сравнению с рейтингом. ^[9]

Правило размера ранга [ править ]

Правило ранга размера (или закона ) описывает замечательную закономерность во многих явлениях, в том числе распределения размеров городов, размеры предприятий, размеры частиц (например, песок), длины рек, частоты словоупотребления, и богатство среди людей.

Все это наблюдения в реальном мире, которые следуют степенным законам , таким как закон Ципфа , распределение Юла или распределение Парето . Если оценить численность населения городов в данной стране или во всем мире и вычислить натуральный логарифм ранга и численности населения города, полученный график покажет линейный логарифм . ^{[ сомнительно - обсудить ]} Это распределение по рангам. ^[10]

Теоретическое обоснование [ править ]

Одно исследование утверждает, что правило размера ранга «работает», потому что оно является «тенью» или случайной мерой истинного явления. ^[11] Таким образом, истинное значение размера ранга не как точная математическая мера (поскольку другие формулы степенного закона более точны, особенно для рангов ниже 10), а скорее как удобная мера или «практическое правило» для определения законы власти. При представлении ранжирования данных переменная с третьим рангом примерно на одну треть меньше значения с наивысшим рангом? Или, наоборот, переменная с наивысшим рейтингом примерно в десять раз больше, чем переменная с десятым рейтингом? Если так, то правило размера ранга, возможно, помогло выявить еще одну взаимосвязь степенного закона.

Известные исключения из простых распределений по рангам [ править ]

Хотя закон Ципфа во многих случаях работает хорошо, он, как правило, не подходит для крупнейших городов многих стран; один тип отклонения известен как эффект Кинга . Исследование 2002 года показало, что закон Ципфа был отклонен в 53 из 73 стран, что намного больше, чем можно было бы ожидать на основе случайного совпадения. ^[12] Исследование также показало, что вариации показателя Парето лучше объясняются политическими переменными, чем переменными экономической географии, такими как заместители для экономии за счет масштаба или транспортных расходов. ^[13] Исследование 2004 года показало, что закон Ципфа плохо работает в пяти крупнейших городах шести стран. ^[14] В более богатых странах распределение было более плоским, чем предполагалось. Например, в СШАХотя в его крупнейшем городе, Нью-Йорке , проживает более чем вдвое больше населения, чем в Лос-Анджелесе , занимающем второе место , мегаполисы этих двух городов (также два крупнейших в стране) гораздо ближе по населению. По численности городского населения Нью-Йорк всего в 1,3 раза больше, чем Лос-Анджелес. В других странах самый крупный город будет доминировать гораздо больше, чем ожидалось. Например, в Демократической Республике Конго столица Киншаса более чем в восемь раз больше, чем второй по величине город Лубумбаши . При рассмотрении всего распределения городов, включая самые маленькие, правило рангового размера не выполняется. Вместо этого распределение логнормальное. Это следует из закона пропорционального роста Гибрата .

Поскольку исключения так легко найти, функция правила анализа городов сегодня заключается в сравнении систем городов в разных странах. Правило рангового размера - это общепринятый стандарт, по которому устанавливается городское первенство. Такое распределение, как в Соединенных Штатах или Китае, демонстрирует не образец первенства, а страны с доминирующим " городом приматов"."явно отличаются от правила размера ранга в противоположной манере. Таким образом, правило помогает классифицировать национальные (или региональные) города-системы в соответствии со степенью доминирования, демонстрируемой крупнейшим городом. Страны с городом-приматом, например, обычно имели колониальную историю, которая объясняет этот образец города. Если ожидается, что нормальный образец распределения города будет следовать правилу размера ранга (т. е. если принцип размера ранга коррелирует с теорией центрального места), то это предполагает, что эти страны или регионы с распределениями, не соответствующими правилу, столкнулись с некоторыми условиями, которые изменили модель нормального распределения. Например,Присутствие нескольких регионов в крупных странах, таких как Китай и США, имеет тенденцию способствовать модели, в которой появляется больше крупных городов, чем можно было бы спрогнозировать по правилу. Напротив, небольшие страны, которые были связаны (например, колониально / экономически) с гораздо большими территориями, будут демонстрировать распределение, в котором самый большой город намного больше, чем соответствует правилу, по сравнению с другими городами - чрезмерный размер города теоретически проистекает из его связи с более крупной системой, а не из естественной иерархии, которую теория центрального места предсказывала бы в пределах одной только этой страны или региона.по сравнению с другими городами - чрезмерный размер города теоретически проистекает из его связи с более крупной системой, а не из естественной иерархии, которую теория центрального места предсказывала бы в пределах одной только этой страны или региона.по сравнению с другими городами - чрезмерный размер города теоретически проистекает из его связи с более крупной системой, а не из естественной иерархии, которую теория центрального места предсказывала бы в пределах одной только этой страны или региона.

См. Также [ править ]

Принцип Парето
Длинный хвост

Ссылки [ править ]

^ "Растянутые экспоненциальные распределения в природе и экономике:" толстые хвосты "с характерными масштабами" , Ж. Лахеррер и Д. Сорнетт
^ Список крупнейших городов США по населению
^ Список городов США по населению
↑ Illustrating the Long Tail , Рэнд Фишкин, 24 ноября 2009 г.
^ a b Digg that Fat Belly! , Роберт Янг, 4 сентября 2006 г.
^ Руководство по оптимизации ключевых слов с длинным хвостом - Как получить прибыль от ключевых слов с длинным хвостом , 3 августа 2009 г., Том Демерс
^ Маленькая голова, среднее тело и длинный хвост ... так где же Microsoft? Архивировано 17 ноября 2015 г. в Wayback Machine , 12 марта 2005 г., Отчет Лоуренса Лю изнутри.
^ Линь, Руокуанг; Ma, Qianli DY; Биан, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv : 1412.4846 . Bibcode : 2014arXiv1412.4846L . Цитировать журнал требует |journal=( помощь )
^ Dacey, MF (1 апреля 1979). «Процесс роста для законов Зипфа и Юла о размерах города». Окружающая среда и планирование . 11 (4): 361–372. DOI : 10.1068 / a110361 . S2CID 122325866 .
^ Закон Ципфа, или ранг-размер Распределение архивации 2007-02-13 в Вайбак Machine Стивен Brakman, Гарри Гарретсен, и Чарльз ван Marrewijk
^ Городская иерархия ранга и размера Джеймс У. Фонсека
^ «Квок Тонг Су (2002)» (PDF) .
^ Закон Ципфа, или ранг-размер Распределение архивации 2007-03-02 в Wayback Machine
^ Cuberes, Дэвид, Возвышение и упадок городов, Университет Чикаго, 29 сентября 2004

Дальнейшее чтение [ править ]

Brakman, S .; Garretsen, H .; Van Marrewijk, C .; Ван Ден Берг, М. (1999). «Возвращение Zipf: к дальнейшему пониманию распределения рангового размера». Журнал региональной науки . 39 (1): 183–213. DOI : 10.1111 / 1467-9787.00129 . S2CID 56011475 .
Герэн-Пейс, Ф. (1995). «Ранговое распределение и процесс городского роста». Городские исследования . 32 (3): 551–562. DOI : 10.1080 / 00420989550012960 . S2CID 154660734 .
Рид, WJ (2001). «Законы Парето, Ципфа и другие степенные законы». Письма по экономике . 74 (1): 15–19. DOI : 10.1016 / S0165-1765 (01) 00524-9 .
Дуглас Р. Уайт , Лоран Тамбайонг и Наташа Кейжар . 2008. Колебательная динамика распределения городов по размерам в мировых исторических системах. Глобализация как эволюционный процесс: моделирование глобальных изменений . Эд. от Джорджа Modelski , Тессалено Девезас и Уильям Р. Томпсон. Лондон: Рутледж. ISBN 978-0-415-77361-4
Использование агентно-ориентированных моделей в региональной науке - имитационное исследование на основе агентов, которое объясняет распределение ранговых размеров

[laherrere-1] "Растянутые экспоненциальные распределения в природе и экономике:" толстые хвосты "с характерными масштабами" , Ж. Лахеррер и Д. Сорнетт

[2] Список крупнейших городов США по населению

[3] Список городов США по населению

[fishkin-4] Illustrating the Long Tail , Рэнд Фишкин, 24 ноября 2009 г.

[young-5] Digg that Fat Belly! , Роберт Янг, 4 сентября 2006 г.

[6] Руководство по оптимизации ключевых слов с длинным хвостом - Как получить прибыль от ключевых слов с длинным хвостом , 3 августа 2009 г., Том Демерс

[liu-7] Маленькая голова, среднее тело и длинный хвост ... так где же Microsoft? Архивировано 17 ноября 2015 г. в Wayback Machine , 12 марта 2005 г., Отчет Лоуренса Лю изнутри.

[8] Линь, Руокуанг; Ma, Qianli DY; Биан, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv : 1412.4846 . Bibcode : 2014arXiv1412.4846L . Цитировать журнал требует |journal=( помощь )

[9] Dacey, MF (1 апреля 1979). «Процесс роста для законов Зипфа и Юла о размерах города». Окружающая среда и планирование . 11 (4): 361–372. DOI : 10.1068 / a110361 . S2CID 122325866 .

[10] Закон Ципфа, или ранг-размер Распределение архивации 2007-02-13 в Вайбак Machine Стивен Brakman, Гарри Гарретсен, и Чарльз ван Marrewijk

[11] Городская иерархия ранга и размера Джеймс У. Фонсека

[12] «Квок Тонг Су (2002)» (PDF) .

[13] Закон Ципфа, или ранг-размер Распределение архивации 2007-03-02 в Wayback Machine

[14] Cuberes, Дэвид, Возвышение и упадок городов, Университет Чикаго, 29 сентября 2004

[1],