Закон Ципфа ( / z ɪ f / , а не / t s ɪ p f /, как в немецком языке) представляет собой эмпирический закон, сформулированный с использованием математической статистики, который относится к тому факту, что для многих типов данных, изучаемых в физических и социальных науках, ранг -частотное распределение является обратной зависимостью. Распределение Ципфа является одним из семейства связанных дискретных степенных распределений вероятностей . Это связано с дзета-распределением , но не идентично.
Вероятностная функция масс Zipf PMF для N = 10 в логарифмическом масштабе. По горизонтальной оси отложен индекс k . (Обратите внимание, что функция определена только при целочисленных значениях k . Соединительные линии не указывают на непрерывность.) | |||
Кумулятивная функция распределения Zipf CDF для N = 10. По горизонтальной оси отложен индекс k . (Обратите внимание, что функция определена только при целочисленных значениях k . Соединительные линии не указывают на непрерывность.) | |||
Параметры | ( реальный ) ( целое число ) | ||
---|---|---|---|
Служба поддержки | |||
PMF | где H N, s - номер N- й обобщенной гармоники. | ||
CDF | |||
Иметь в виду | |||
Режим | |||
Дисперсия | |||
Энтропия | |||
MGF | |||
CF |
Изначально закон Ципфа был сформулирован в терминах количественной лингвистики , утверждая, что при некотором корпусе высказываний на естественном языке частота любого слова обратно пропорциональна его рангу в таблице частот . Таким образом, наиболее часто встречающееся слово будет встречаться примерно в два раза чаще, чем второе по частоте слово, в три раза чаще, чем третье по частоте слово, и т. Д. Например, в Коричневом корпусе американского английского текста слово « the » - это наиболее часто встречающееся слово, и на его долю приходится почти 7% всех встречаемости слов (69 971 из чуть более 1 миллиона). В соответствии с законом Ципфа, слово « of », занимающее второе место, составляет чуть более 3,5% слов (36 411 вхождений), за ним следует « и » (28 852). Чтобы составить половину коричневого корпуса, необходимо всего 135 словарных единиц. [1]
Закон назван в честь американского лингвиста Джорджа Кингсли Зипфа (1902–1950), который популяризировал его и пытался объяснить (Zipf 1935, 1949), хотя он и не утверждал, что является его автором. [2] Французский стенографист Жан-Батист Эступ (1868–1950), кажется, заметил закономерность до Ципфа. [3] [ не подтверждено в теле ] Это было также отмечено в 1913 году немецким физиком Феликсом Ауэрбахом (1856–1933). [4]
Закон аналогичен по концепции, но не идентичен по распределению закону Бенфорда .
Другие наборы данных
Такая же взаимосвязь наблюдается во многих других рейтингах созданных человеком систем [5], таких как ранги математических выражений [6] или ранги нот в музыке [7], и даже в неконтролируемых средах, таких как ранги населения городов в разные страны, размеры корпораций, рейтинги доходов, количество людей, смотрящих один и тот же телеканал, [8] и так далее. Появление распределения в рейтинге городов по численности населения был первым заметил Феликс Ауэрбах в 1913 году [4] Эмпирически набор данных может быть проверена , чтобы видеть , применяется ли закон Ципфа, проверяя степень согласия эмпирического распределения к гипотетической распределение степенного закона с помощью критерия Колмогорова – Смирнова , а затем сравнение (логарифмического) отношения правдоподобия распределения степенного закона с альтернативными распределениями, такими как экспоненциальное распределение или логнормальное распределение. [9]
Когда закон Ципфа проверяется для городов, лучшее соответствие было найдено с показателем s = 1,07; т.е. n-й по величине населенный пункт размер самого большого населенного пункта, другими словами: в виде согласно закону Ципфа.
Теоретический обзор
Закон Ципфа легче всего соблюсти, нанеся данные на логарифмический график с осями логарифма (порядок ранжирования) и логарифма (частота). Например, слово «the» (как описано выше) появится в x = log (1), y = log (69971). Также возможно построить график зависимости взаимного ранга от частоты или обратной частоты или межсловного интервала от ранга. [2] Данные соответствуют закону Ципфа в той степени, в которой график является линейным .
Формально пусть:
- N - количество элементов;
- k - их ранг;
- s - значение показателя, характеризующего распределение.
Затем закон Ципфа предсказывает, что из популяции, состоящей из N элементов, нормализованная частота элемента ранга k , f ( k ; s , N ), равна:
Закон Ципфа выполняется, если количество элементов с заданной частотой является случайной величиной со степенным распределением [10]
Было заявлено, что это представление закона Ципфа больше подходит для статистического тестирования, и таким образом оно было проанализировано в более чем 30 000 текстов на английском языке. Тесты согласия показывают, что только около 15% текстов статистически совместимы с этой формой закона Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%. [11]
В примере частоты встречаемости слов в английском языке N - это количество слов в английском языке, и, если мы используем классическую версию закона Ципфа, показатель s равен 1. f ( k ; s , N ) будет тогда будет доля времени, в течение которого встречается k- е наиболее часто встречающееся слово.
В законе также можно написать:
где H N, s - номер N- й обобщенной гармоники .
Простейший случай закона Ципфа - это "1/ж"функция. Учитывая набор распределенных частот Ципфа, отсортированных от наиболее распространенных к наименее распространенным, вторая наиболее распространенная частота будет встречаться вдвое реже первой, а третья по частоте будет встречаться. 1/3так часто, как первая, и будет встречаться n- я наиболее частая частота 1/птак же часто, как и первый. Однако это не может выполняться точно, потому что элементы должны встречаться целое число раз; слово не может встречаться 2,5 раза. Тем не менее, в довольно широких пределах и с довольно хорошим приближением многие природные явления подчиняются закону Ципфа.
В человеческих языках частоты слов имеют очень тяжелое распределение, и поэтому их можно достаточно хорошо смоделировать с помощью распределения Ципфа с s, близким к 1.
Пока показатель s превышает 1, такой закон может выполняться с бесконечным числом слов, поскольку если s > 1, то
где ζ - дзета-функция Римана .
Статистическое объяснение
Хотя Закон Ципфа имеет место для всех языков, даже ненатуральных из них , как эсперанто , [12] причина до сих пор не изучена. [13] Однако это можно частично объяснить статистическим анализом случайно сгенерированных текстов. Вэньтян Ли показал, что в документе, в котором каждый символ был выбран случайным образом из равномерного распределения всех букв (плюс пробел), «слова» с разной длиной следуют макротенденции закона Ципфа (более вероятный слова самые короткие с равной вероятностью). [14] Витольд Белевич в статье « О статистических законах лингвистического распределения» предлагает математический вывод. Он взял большой класс хороших статистических распределений (не только нормальное распределение ) и выразил их в терминах ранга. Затем он расширил каждое выражение до серии Тейлора . Во всех случаях Белевич получал замечательный результат: обрезание ряда в первом порядке приводило к закону Ципфа. Кроме того, усечение второго порядка ряда Тейлора привело к закону Мандельброта . [15] [16]
Принцип наименьших усилий является еще одним из возможных объяснений: сам Ципф предложил , что ни ораторы , ни слушатели , использующие данный язык хотят работать тяжелее , чем это необходимо для достижения понимания, а процесс , который приводит к примерно равное распределение усилий приводит к наблюдаемому распределению Ципфа . [17] [18]
Точно так же предпочтительная привязанность (интуитивно «богатые становятся богаче» или «успех порождает успех»), которая приводит к распределению Юла – Саймона, как было показано, соответствует частоте слов в зависимости от ранга в языке [19] и населения в сравнении с рангом города [20] лучше, чем закон Ципфа. Первоначально он был выведен Юлом для объяснения численности населения и ранга видов и применен к городам Саймоном.
Математическое объяснение
Модели Атласа - это системы обменных положительных диффузионных процессов с параметрами дрейфа и дисперсии, которые зависят только от ранга процесса. Математически показано, что закон Ципфа выполняется для моделей Атласа, удовлетворяющих определенным естественным условиям регулярности. [21] Модели Атласа можно использовать для представления эмпирических систем многомерных данных, зависящих от времени, включая, например, частоту слов в письменном языке, население городов и размер компаний. Модель Атласа, представляющая эмпирическую систему, будет иметь такое же стационарное распределение, что и эмпирическая система, поэтому, если модель Атласа следует закону Ципфа, система также будет следовать закону Ципфа. Поскольку модели Атласа, удовлетворяющие условиям естественной регулярности, подчиняются закону Ципфа, это объясняет его универсальность. [22]
На приведенном выше рисунке из 10 миллионов слов Википедии логарифмические графики представляют собой не совсем прямые линии, а скорее слегка вогнутые кривые с тангенсом наклона -1 в некоторой точке вдоль кривой. Такие распределения обычно называют квази-Ципфиановыми распределениями, и большинство систем зависящих от времени эмпирических данных, которые, как говорят, подчиняются закону Ципфа, на самом деле являются квази-Ципфиановыми. Квази-Ципфовые системы могут быть представлены квази-атласовыми моделями , а квази-атласские модели поддаются математической обработке, аналогичной той, что применяется для закона Ципфа.
Связанные законы
Фактически , закон Ципфа в более общем смысле относится к частотным распределениям «ранговых данных», в которых относительная частота элемента с n- м рангом задается дзета-распределением , 1 / ( n s ζ ( s )), где параметр s > 1 индексирует членов этого семейства вероятностных распределений . Действительно, закон Ципфа иногда является синонимом «дзета-распределения», поскольку распределения вероятностей иногда называют «законами». Это распределение иногда называют распределением Ципфиана .
Обобщением закона Ципфа является закон Ципфа – Мандельброта , предложенный Бенуа Мандельброт , частоты которого равны:
«Константа» является обратной величиной дзета-функции Гурвица, вычисленной в s . На практике, как это легко наблюдать на графиках распределения для больших корпусов, наблюдаемое распределение можно более точно смоделировать как сумму отдельных распределений для различных подмножеств или подтипов слов, которые следуют различным параметризациям распределения Ципфа-Мандельброта, в частности, замкнутого класса функциональных слов показывает s меньше 1, в то время как неограниченный рост словарного запаса с увеличением размера документа и размера корпуса требует s больше 1 для сходимости обобщенного гармонического ряда . [2]
Распределения Ципфа можно получить из распределений Парето путем обмена переменными. [10]
Распределение Ципфа иногда называют дискретным распределением Парето [23], потому что оно аналогично непрерывному распределению Парето точно так же, как дискретное равномерное распределение аналогично непрерывному равномерному распределению .
Хвостовые частоты распределения Юла – Саймона приблизительно равны
при любом выборе ρ > 0.
В параболическом фрактальном распределении логарифм частоты является квадратичным полиномом от логарифма ранга. Это может заметно улучшить соответствие простым степенным отношениям. [24] Как и фрактальная размерность, можно вычислить размерность Ципфа, которая является полезным параметром при анализе текстов. [25]
Утверждалось, что закон Бенфорда является частным ограниченным случаем закона Ципфа [24], причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений из статистической физики и критических явлений. [26] Отношения вероятностей в законе Бенфорда непостоянны. Старшие цифры данных, удовлетворяющих закону Ципфа с s = 1, удовлетворяют закону Бенфорда.
Закон Бенфорда: | ||
---|---|---|
1 | 0,30103000 | |
2 | 0,17609126 | -0,7735840 |
3 | 0,12493874 | -0,8463832 |
4 | 0,09691001 | −0,8830605 |
5 | 0,07918125 | -0,9054412 |
6 | 0,06694679 | -0,9205788 |
7 | 0,05799195 | -0,9315169 |
8 | 0,05115252 | -0,9397966 |
9 | 0,04575749 | -0,9462848 |
Приложения
В теории информации символ (событие, сигнал) вероятности содержит биты информации. Отсюда закон Ципфа для натуральных чисел: эквивалентно числу содержащий биты информации. Чтобы добавить информацию из символа вероятности в информацию, уже хранящуюся в натуральном числе , мы должны пойти в такой, что , или эквивалентно . Например, в стандартной двоичной системе мы имели бы, что оптимально для распределение вероятностей. С использованиемПравило общего распределения вероятностей является основой асимметричной системы счисления семейства энтропийных кодирования методов , используемых в сжатии данных , которые гласят распределение также регулируются законом Ципфа.
Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. [27] Закон Ципфа также использовался Лоренсом Дойлем и другими сотрудниками Института SETI в рамках поиска внеземного разума . [28] [29]
Смотрите также
- Правило 1% (Интернет-культура)
- Закон Бенфорда
- Закон Брэдфорда
- Закон краткости
- Демографическая гравитация
- Список частот
- Закон гибрата
- Hapax legomenon
- Закон кучи
- Эффект короля
- Кривая Лоренца
- Закон Лотки
- Закон Мензерата
- Распределение Парето
- Принцип Парето , он же «правило 80–20»
- Закон цены
- Принцип наименьшего усилия
- Распределение по рангам
- Закон Стиглера эпонимии
- Длинный хвост
Рекомендации
- ^ Фэган, Стивен; Генчай, Рамазан (2010), «Введение в текстовую эконометрику», Уллах, Аман; Джайлз, Дэвид Э.А. (ред.), Справочник по эмпирической экономике и финансам , CRC Press, стр. 133–153, ISBN 9781420070361. Стр. 139 : «Например, в Коричневом корпусе, состоящем из более чем миллиона слов, половина объема слов состоит из повторного использования всего 135 слов».
- ^ а б в Пауэрс, Дэвид МВ (1998). «Приложения и объяснения закона Ципфа» . Ассоциация компьютерной лингвистики: 151–160. Цитировать журнал требует
|journal=
( помощь ) - ^ Кристофер Д. Мэннинг, Hinrich Schütze Основы статистической обработки естественного языка , MIT Press (1999), ISBN 978-0-262-13360-9 , стр. 24
- ^ a b Ауэрбах Ф. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann's Geographische Mitteilungen 59, 74–76
- ^ Пиантадози, Стивен (25 марта 2014 г.). «Закон частоты слов Ципфа в естественном языке: критический обзор и будущие направления» . Psychon Bull Rev . 21 (5): 1112–1130. DOI : 10,3758 / s13423-014-0585-6 . PMC 4176592 . PMID 24664880 .
- ^ Грейнер-Петтер, Андре; Шуботц, Мориц; Мюллер, Фабиан; Брайтингер, Коринна; Кол, Ховард; Айзава, Акико; Гипп, Бела (20 апреля 2020 г.). Открытие математических объектов интереса - изучение математических обозначений . Веб-конференция (WWW). Тайбэй, Тайвань: ACM. arXiv : 2002.02712 . DOI : 10.1145 / 3366423.3380218 .
- ^ Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv : cs / 0406015 .
- ^ М. Эриксон, М. Hasibur Рахман, Ф. Fraille, М. Sjöström, Efficient Interactive Multicast через DVB-T2 - Использование динамических SFNs и PARPS в архив 2014-05-02 в Wayback Machine , 2013 IEEE Международная конференция по вычислительнойи информационных технологий (BMSB'13), Лондон, Великобритания, июнь 2013 г. Предлагает гетерогенную модель выбора телеканалов по закону Ципфа.
- ^ Clauset, А., Шализи, CR, & Newman, MEJ (2009). Степенные распределения в эмпирических данных. SIAM Review, 51 (4), 661–703. DOI : 10,1137 / 070710111
- ^ a b Adamic, Lada A. (2000) «Zipf, Power-законы и Парето - руководство по ранжированию», первоначально опубликованное на .parc.xerox.com. Архивировано 26 октября 2007 г. в Wayback Machine.
- ^ Морено-Санчес, я; Font-Clos, F; Корраль, А (2016). «Масштабный анализ закона Ципфа в английских текстах» . PLOS ONE . 11 (1): e0147073. arXiv : 1509.04486 . Bibcode : 2016PLoSO..1147073M . DOI : 10.1371 / journal.pone.0147073 . PMC 4723055 . PMID 26800025 .
- ^ Билл Манарис; Лука Пелликоро; Джордж Позеринг; Харланд Ходжес (13 февраля 2006 г.). Исследование статистических пропорций эсперанто по сравнению с другими языками с помощью нейронных сетей и закона Ципфа (PDF) . Искусственный интеллект и приложения . Инсбрук, Австрия. С. 102–108. Архивировано 5 марта 2016 года из оригинального (PDF) .
- ↑ Леон Бриллюэн , La science et la théorie de l'information , 1959, отредактировано в 1988 году, английский перевод в 2004 году.
- ^ Вэньтянь Ли (1992). «Случайные тексты демонстрируют распределение частот слов по закону Ципфа». IEEE Transactions по теории информации . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . DOI : 10.1109 / 18.165464 .
- ^ Нойман, Питер Г. «Статистическая металингвистика и Ципф / Парето / Мандельброт» , Международная лаборатория компьютерных наук SRI , доступ и архив 29 мая 2011 г.
- ^ Белевич V (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF) . Annales de la Société Scientifique de Bruxelles . I. 73 : 310–326.
- ^ Ципф Г.К. (1949). Человеческое поведение и принцип наименьшего усилия . Кембридж, Массачусетс: Аддисон-Уэсли. п. 1.
- ^ Рамон Феррер и Канчо и Рикар В. Соле (2003). «Наименьшее усилие и истоки масштабирования на человеческом языке» . Труды Национальной академии наук Соединенных Штатов Америки . 100 (3): 788–791. Bibcode : 2003PNAS..100..788C . DOI : 10.1073 / pnas.0335980100 . PMC 298679 . PMID 12540826 .
- ^ Линь, Руокуанг; Ma, Qianli DY; Биан, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv : 1412.4846 [ cs.CL ].
- ^ Витанов, Николай К .; Ослоос, Марсель; Биан, Чуньхуа (2015). «Проверка двух гипотез, объясняющих размер населения в системе городов». Журнал прикладной статистики . 42 (12): 2686–2693. arXiv : 1506.08535 . Bibcode : 2015arXiv150608535V . DOI : 10.1080 / 02664763.2015.1047744 . S2CID 10599428 .
- ^ Рикардо Т. Фернхольц; Роберт Фернхольц (декабрь 2020 г.). «Закон Ципфа для моделей атласов» . Журнал прикладной теории вероятностей . 57 (4): 1276–1297.
- ^ Теренс Тао (2012). «E Pluribus Unum: от сложности к универсальности» . Дедал . 141 (3): 23–34.
- ^ Н.Л. Джонсон; С. Коц и А. В. Кемп (1992). Одномерные дискретные распределения (второе изд.). Нью-Йорк: ISBN John Wiley & Sons, Inc. 978-0-471-54897-3., п. 466.
- ^ а б Йохан Герард ван дер Галиен (2008-11-08). «Факторная случайность: законы Бенфорда и Ципфа относительно распределения первой цифры факторной последовательности из натуральных чисел» . Архивировано из оригинала на 2007-03-05 . Проверено 8 июля +2016 .
- ^ Эфтехари, Али (2006). «Фрактальная геометрия текстов: начальное приложение к произведениям Шекспира». Журнал количественной лингвистики . 13 (2–3): 177–193. DOI : 10.1080 / 09296170600850106 .
- ^ Pietronero, L .; Tosatti, E .; Tosatti, V .; Веспиньяни, А. (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Physica . 293 (1-2): 297-304. DOI : 10.1016 / S0378-4371 (00) 00633-6 .
- ^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF) . Материалы девятого семинара по созданию и использованию сопоставимых корпусов . LREC 2016. Порторож, Словения. С. 21–25. Архивировано (PDF) из оригинала 23 марта 2018 года.
- ^ Doyle, Laurance R .; Мао, Тяньхуа (18.11.2016). «Почему чужой язык должен выделяться среди всего шума Вселенной» . Nautilus Quarterly .
- ^ Кершенбаум, Арик (16.03.2021). Руководство зоолога по Галактике: что животные на Земле говорят об инопланетянах и о нас самих . Пингвин. С. 251–256. ISBN 978-1-9848-8197-7. OCLC 1242873084 .
дальнейшее чтение
Начальный:
- Джордж К. Зипф (1949) Поведение человека и принцип наименьшего усилия . Эддисон-Уэсли. "Интернет-текст [1] "
- Джордж К. Зипф (1935) Психобиология языка . Houghton-Mifflin.
Вторичный:
- Александр Гельбух и Григорий Сидоров (2001) "Коэффициенты законов Ципфа и Хупса зависят от языка" . Proc. CICLing- 2001, Конференция по интеллектуальной обработке текстов и компьютерной лингвистике , 18–24 февраля 2001 г., Мехико. Конспект лекций по информатике N 2004, ISSN 0302-9743 , ISBN 3-540-41687-0 , Springer-Verlag: 332–335.
- Дамиан Х. Занетт (2006) « Закон Ципфа и создание музыкального контекста », Musicae Scientiae 10 : 3–18.
- Frans J. Van Droogenbroeck (2016), Обработка распределения Zipf в компьютеризированной атрибуции авторства
- Frans J. Van Droogenbroeck (2019), Существенная перефразировка закона Ципфа-Мандельброта для решения приложений атрибуции авторства с помощью гауссовой статистики
- Кали Р. (2003) «Город как гигантский компонент: подход случайного графа к закону Ципфа», Applied Economics Letters 10 : 717–720 (4)
- Габе, Ксавье (август 1999). «Закон Ципфа для городов: объяснение» (PDF) . Ежеквартальный экономический журнал . 114 (3): 739–67. CiteSeerX 10.1.1.180.4097 . DOI : 10.1162 / 003355399556133 . ISSN 0033-5533 .
- Axtell, Роберт Л; Распределение Zipf о размерах фирм США , Science, 293, 5536, 1818, 2001, Американская ассоциация содействия развитию науки.
- Раму Ченна, Тоби Гибсон; Оценка пригодности модели разрывов Ципфа для попарного выравнивания последовательностей , Международная конференция по биоинформатике, вычислительной биологии: 2011.
- Шыкло А. (2017); Простое объяснение тайны Зипфа через новое распределение рангов и долей, полученное из комбинаторики процесса ранжирования , доступно на SSRN: https://ssrn.com/abstract=2918642 .
Внешние ссылки
- Строгац, Стивен (2009-05-29). «Гостевая колонка: Математика и город» . Нью-Йорк Таймс . Проверено 29 мая 2009 .—Статья о законе Ципфа применительно к городскому населению.
- Взгляд со всех сторон (искусственные общества используют закон Ципфа)
- Статья PlanetMath о законе Ципфа
- Распределения типа "фрактальная параболика" в природе (на французском языке, с резюме на английском языке)
- Анализ распределения доходов
- Zipf Список французских слов
- Список Zipf для английского, французского, испанского, итальянского, шведского, исландского, латинского, португальского и финского языков от проекта Gutenberg и онлайн-калькулятор для ранжирования слов в текстах
- Цитирования и закон Ципфа – Мандельброта.
- Примеры и моделирование закона Ципфа (1985)
- Сложные системы: распаковка закона Ципфа (2011)
- Закон Бенфорда, закон Ципфа и распределение Парето Теренса Тао.
- "Закон Ципфа" , Энциклопедия математики , EMS Press , 2001 [1994]