Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Частота букв - это просто количество раз, когда буквы алфавита появляются в среднем в письменном языке. Анализ частоты букв восходит к арабскому математику Аль-Кинди (около 801–873 гг. Н.э.), который официально разработал метод взлома шифров. Анализ частоты букв приобрел важность в Европе с развитием подвижного шрифта в 1450 году нашей эры, где необходимо оценить количество шрифта, требуемого для каждой формы буквы. Лингвисты используют частотный анализ букв как элементарный метод для идентификации языка , где он особенно эффективен для определения того, является ли неизвестная система письма алфавитной, слоговой или идеографической.

Использование частот букв и частотного анализа играет фундаментальную роль в криптограммах и некоторых играх-головоломках со словами, в том числе в Hangman , Scrabble и телеигре Wheel of Fortune . Одно из самых ранних описаний в классической литературе применения знания о частоте букв английского алфавита для решения криптограммы можно найти в знаменитом рассказе Эдгара Аллана По « Золотой жук» , где этот метод успешно применяется для расшифровки сообщения с инструкциями о местонахождении сокровище, спрятанное капитаном Киддом . [1]

Частота букв также сильно влияет на дизайн некоторых раскладок клавиатуры . Наиболее частые буквы в нижней строке машинки Blickensderfer , и дом строке из раскладки клавиатуры Dvorak .

Фон [ править ]

Частота букв в тексте была изучена для использования в криптоанализе и, в частности, в частотном анализе , начиная с иракского математика Аль-Кинди (ок. 801–873 гг. Н.э.), который формально разработал метод (шифры, взламываемые с помощью этой техники вернуться хотя бы к шифру Цезаря, изобретенному Юлием Цезарем , так что этот метод можно было исследовать в классические времена). Частотный анализ букв приобрел дополнительное значение в Европе с развитием подвижного шрифта в 1450 году нашей эры, где необходимо оценить количество шрифта, требуемого для каждой буквенной формы, о чем свидетельствуют различия в размере буквенного отсека в типографских случаях.

В основе данного языка нет точного частотного распределения букв, поскольку все авторы пишут немного по-разному. Однако большинство языков имеют характерное распределение, которое явно проявляется в более длинных текстах. Даже такие резкие языковые изменения, как от старого английского к современному (считающемуся взаимно непонятным), демонстрируют сильные тенденции в частотности соответствующих букв: по небольшой выборке библейских отрывков от наиболее частых к наименее частым, enaid sorhm tgþlwu æcfy ðbpxz из старого английского сравнивает to eotha sinrd luymw fgcbp kvjqxz современного английского языка, с нераспространенными самыми резкими различиями в формах букв. [2]

Машины линотипа для английского языка предполагали порядок букв, от наиболее распространенного до наименее распространенного, как etaoin shrdlu cmfwyp vbgkjq xz на основе опыта и обычаев ручных наборщиков. Эквивалент для французского языка был elaoin sdrétu cmfhyp vbgwqj xz .

Если разделить алфавит на азбуке Морзе на группы букв, для передачи которых требуется равное количество времени, а затем отсортировать эти группы в порядке возрастания, получим e it san hurdm wgvlfbk opxcz jyq . [a] Частота букв использовалась другими телеграфными системами, такими как Код Мюррея .

Подобные идеи используются в современных методах сжатия данных , таких как кодирование Хаффмана .

Частота букв, как и частота слов , может варьироваться как в зависимости от автора, так и в зависимости от темы. Нельзя написать эссе о рентгеновских лучах без частого использования крестиков, и эссе будет иметь своеобразную частоту букв, если эссе посвящено использованию рентгеновских лучей для лечения зебр в Катаре. У разных авторов есть привычки, которые могут быть отражены в использовании букв. Стиль письма Хемингуэя , например, заметно отличается от стиля Фолкнера . Буква, биграмма , триграмма , частота слов, длина слова и длина предложения могут быть рассчитаны для конкретных авторов и использоваться для доказательства или опровержения авторства текстов, даже для авторов, стили которых не так расходятся.

Точную среднюю частоту букв можно определить только путем анализа большого количества репрезентативного текста. Благодаря наличию современных компьютеров и коллекций больших текстовых корпусов такие вычисления выполняются легко. Примеры могут быть взяты из различных источников (репортажи в прессе, религиозные тексты, научные тексты и художественная литература общего характера), и существуют различия, особенно для художественной литературы общего характера, с положением «h» и «i», причем «h» становится все более распространенным.

Герберт С. Зим в своем классическом вводном тексте по криптографии «Коды и секретное письмо» дает последовательность английских букв как «ETAON RISHD LFCMU GYPWB VKJXZQ», наиболее распространенные пары букв как «TH HE AN RE ER IN ON AT ND ST». ES EN OF TE ED OR TI HI AS TO », а наиболее распространенные удвоенные буквы -« LL EE SS OO TT FF RR NN PP CC ». [3]

Также обратите внимание, что разные диалекты языка также влияют на частоту букв. Например, автор в США создаст текст, в котором буква «z» встречается чаще, чем автор в Соединенном Королевстве, пишущий на ту же тему: такие слова, как «анализировать», «извиняться» и «признавать» содержат письмо в американском английском, тогда как те же слова пишутся «анализировать», «извиняться» и «признавать» в британском английском. Это сильно повлияет на частоту буквы «z», поскольку это редко используемая буква британцами в английском языке. [4]

«Двенадцать первых» букв составляют около 80% от общего использования. «Восьмерка» букв составляет около 65% от общего использования. Частота букв как функция ранга может быть хорошо подогнана несколькими функциями ранга, из которых лучше всего подходит двухпараметрическая функция ранга Кочо / Бета . [5] Другая функция ранжирования без регулируемого свободного параметра также достаточно хорошо соответствует частотному распределению букв [6] (та же функция была использована для соответствия частотности аминокислот в белковых последовательностях. [7] ) Шпион, использующий шифр VIC или какой-то другой шифр, основанный на двойной шахматной доске, обычно использует мнемонику, такую ​​как «грех совершить ошибку» (отбрасывание второго «r») [8] [9] или «за один раз, сэр "[10], чтобы запомнить восемь верхних символов.

Относительная частота букв в английском языке [ править ]

В 19 веке дело в Калифорнии представляло собой коробку с отделениями для печати, размеры которой соответствовали общности букв.

Есть три способа подсчета количества букв, которые приводят к очень разным диаграммам для общих букв. Первый метод, используемый в таблице ниже, - это подсчет частоты букв в корневых словах словаря. Во-вторых, при подсчете учитываются все варианты слова, такие как «рефераты», «абстракции» и «абстрагирование», а не только корень слова «абстрактное». Эта система приводит к тому, что буквы вроде 's' появляются гораздо чаще, например, при подсчете букв из списков наиболее часто используемых английских слов в Интернете. Последний вариант - подсчет букв в зависимости от частоты их использования в реальных текстах, в результате чего определенные комбинации букв, такие как 'th', становятся более распространенными из-за частого использования общих слов, таких как «the», «then», «both», и Т. Д.Подобные меры абсолютной частоты использования используются при создании раскладок клавиатуры или частот букв в старых печатных машинах.

Анализ статей в Кратком Оксфордском словаре без учета частоты использования слов дает порядок «EARIOTNSLCUDPMHGBFYWKVXZJQ». [11]

Приведенная ниже таблица частотности букв взята с веб-сайта Павла Мички, на котором цитируется работа Роберта Леванда « Криптологическая математика» . [12]

По словам Леванда, буквы расположены в порядке от наиболее распространенного до наименее распространенного: etaoinshrdlcumwfgypbvkjxqz . Порядок действий Леванда немного отличается от других, таких как проект Math Explorer Корнельского университета, который создал таблицу после измерения 40 000 слов. [13]

В английском языке пробел немного чаще, чем верхняя буква (e) [14], а неалфавитные символы (цифры, знаки препинания и т. Д.) Вместе занимают четвертую позицию (уже включив пробел) между t и a . [15]

Относительные частоты первых букв слова в английском языке [ править ]

Частота появления первых букв слов или имен помогает предварительно выделить место в физических файлах и индексах. [16] Учитывая 26  ящиков картотечного шкафа , а не назначение 1: 1 одного ящика одной букве алфавита, часто бывает полезно использовать код с более равной частотой букв, назначая несколько низкочастотных букв одним и тем же ящик (часто один ящик обозначается VWXYZ) и для разделения наиболее часто встречающихся начальных букв ('S', 'A' и 'C') на несколько ящиков (часто 6 ящиков Aa-An, Ao-Az, Ca -Cj, Ck-Cz, Sa-Si, Sj-Sz). Та же система используется в некоторых многотомных произведениях, например, в некоторых энциклопедиях . В некоторых библиотеках используются номера резаков , еще одно сопоставление имен с кодом с более равной частотой.

Как общее распределение букв, так и распределение начальных букв примерно соответствуют распределению Zipf и даже более точно соответствуют распределению Yule . [17]

Часто частотное распределение первой цифры в каждой системе данных значительно отличается от общей частоты всех цифр в наборе числовых данных, подробности см. В законе Бенфорда .

Анализ данных Google Книг, проведенный Питером Норвигом, определил, среди прочего, частоту появления первых букв английских слов. [18]

Относительная частота букв в других языках [ править ]

* См пунктир и без точки я .

На рисунке ниже показано частотное распределение 26 наиболее распространенных латинских букв в некоторых языках. Все эти языки используют одинаковый алфавит из 25+ символов.

На основе этих таблиц результаты, эквивалентные etaoin shrdlu для каждого языка, выглядят следующим образом:

  • Французский: esait nruol; (Индоевропейский: курсив; традиционно используется слово esartinulop, отчасти из-за простоты произношения [32] )
  • Испанский: «eaosr nidlt»; (Индоевропейский: курсив)
  • Португальский: 'aeosr idmnt' (индоевропейский: курсив)
  • Итальянский: 'eaion lrtsc'; (Индоевропейский: курсив)
  • Эсперанто: 'aieon lsrtk' (искусственный язык - лексика, на которую оказали влияние индоевропейские языки, романский, в основном германский)
  • Немецкий: «enisr atdhu»; (Индоевропейский: германский)
  • Шведский: «eanrt sildo»; (Индоевропейский: германский)
  • Турецкий: 'aeinr lkdım'; (Тюркский)
  • Голландский: «enati rodsl»; (Индоевропейский: германский) [28]
  • Польский: «aioez nrwst»; (Индоевропейский: балто-славянский)
  • Датский: 'ernta idslo'; (Индоевропейский: германский)
  • Исландский: «arnie stulð»; (Индоевропейский: германский)
  • Финский: «ainte slouk»; (Уральский: Финский)
  • Чешский: 'aeoni tvsrl'; (Индоевропейский: балто-славянский)

См. Также [ править ]

  • Корпусная лингвистика
  • RSTLNE ( Колесо фортуны )
  • Частота английских слов
  • Частота арабских букв
  • Раскладка клавиатуры Дворжака

Примечания [ править ]

  1. Американский код Морзе был разработан в 1830-х годах Альфредом Вейлом на основе частот английских букв для кодирования наиболее часто встречающихся букв с помощью самых коротких символов. Некоторая эффективность была потеряна в реформированной версии, используемой сейчас: Международном коде Морзе.

Цитаты [ править ]

  1. По, Эдгар Аллан. «Произведения Эдгара Аллана По в пяти томах» . Проект Гутенберг.
  2. ^ Морено, Марша Линн (весна 2005 г.). «Частотный анализ в свете языковых инноваций» (PDF) . Математика. Калифорнийский университет - Сан-Диего . Дата обращения 19 февраля 2015 .
  3. ^ Зим, Герберт Спенсер (1961). Коды и секретное написание: Авторизованное сокращение . Учебные книжные услуги. OCLC 317853773 . 
  4. ^ «Британская и американская орфография - Оксфордские словари» . Оксфордские словари - английские . Проверено 18 апреля 2018 года .
  5. ^ Ли, Вэньтянь; Мирамонтес, Педро (2011). «Фиттинг оценил распределение частотности писем на английском и испанском языках в выступлениях президентов США и Мексики». Журнал количественной лингвистики . 18 (4): 359. arXiv : 1103.2950 . DOI : 10.1080 / 09296174.2011.608606 . S2CID 1716455 . 
  6. ^ Гусейн-Заде С.М. (1988). «Частота распространения букв русского языка». Пробл. Передачи Инф . 24 (4): 102–107.
  7. ^ Гамов, Джордж; Ycas, Мартинас (1955). «Статистическая корреляция состава белка и рибонуклеиновой кислоты» . Proc. Natl. Акад. Sci . 41 (12): 1011–1019. Bibcode : 1955PNAS ... 41.1011G . DOI : 10.1073 / pnas.41.12.1011 . PMC 528190 . PMID 16589789 .  
  8. ^ Бауэр, Фридрих Л. (2006). Расшифрованные секреты: методы и принципы криптологии . п. 57. ISBN 9783540481218 - через Google Книги.
  9. Перейти ↑ Goebel, Greg (2009). The Rise Of Field Ciphers: разные шифры в шахматную доску .
  10. ^ Rijmenants, Дирк. «Одноразовый блокнот» .
  11. ^ "Какая частота букв алфавита в английском языке?" . Оксфордский словарь . Издательство Оксфордского университета . Проверено 29 декабря 2012 года .
  12. ^ Мичка, Павел. «Частота букв (английский)» . Algoritmy.net.
  13. ^ «Таблица частот» . Cornell.edu . Источник 2021-01-24 .
  14. ^ «Статистические распределения английского текста» . data-compression.com . Архивировано из оригинала на 2017-09-18.
  15. ^ Ли, Э. Стюарт. «Очерки компьютерной безопасности» (PDF) . Компьютерная лаборатория Кембриджского университета. п. 181.
  16. ^ Олман, Герберт Марвин (1959). Частоты письма предметного слова с приложениями к наложенному кодированию . Материалы Международной конференции по научной информации.
  17. ^ Панде, Гемлата; Дхами, HS "Математическое моделирование появления букв и инициалов слов в текстах на языке хинди" (PDF) . JTL . 16 .
  18. ^ «Частота встречаемости английских букв: пересмотр Майзнера или ETAOIN SRHLDCU» . norvig.com . Проверено 18 апреля 2018 года .
  19. ^ "Corpus de Thomas Tempé" . Архивировано из оригинального 30 сентября 2007 года . Проверено 15 июня 2007 года .
  20. ^ Beutelspacher, Альбрехт (2005). Криптология (7-е изд.). Висбаден: Vieweg. п. 10. ISBN 3-8348-0014-7.
  21. ^ Пратт, Флетчер (1942). Секретно и срочно: История кодов и шифров . Garden City, NY: Blue Ribbon Books. С. 254–5. OCLC 795065 . 
  22. ^ "Frequência da ocorrência de letras no Português" . Архивировано из оригинала 3 августа 2009 года . Проверено 16 июня 2009 года .
  23. ^ "La Oftecoj de la Esperantaj Literoj" . Проверено 14 сентября 2007 года .
  24. ^ Сингх, Саймон; Галли, Стефано (1999). Codici e Segreti (на итальянском языке). Милан: Риццоли. ISBN 978-8-817-86213-4. OCLC  535461359 .
  25. ^ Serengil, Сефик Илькин; Акин, Мурат (20–22 февраля 2011 г.). Атака на турецкие тексты, зашифрованные гомофоническим шифром (PDF) . Труды 10-й Международной конференции WSEAS по электронике, аппаратному обеспечению, беспроводной и оптической связи. Кембридж, Великобритания. С. 123–126.
  26. ^ «Практическая криптография» . Проверено 30 октября 2013 года .
  27. ^ https://sjp.pwn.pl/poradnia/haslo/frekwencja-liter-w-polskich-tekstach;7072.html
  28. ^ a b "Letterfrequenties" . Genootschap OnzeTaal . Проверено 17 мая 2009 года .
  29. ^ "Датские буквенные частоты" . Практическая криптография . Проверено 24 октября 2013 года .
  30. ^ "Исландские буквенные частоты" . Практическая криптография . Проверено 24 октября 2013 года .
  31. ^ "Частоты финских букв" . Практическая криптография . Проверено 24 октября 2013 года .
  32. ^ Перек, Жорж; Алфавиты ; Éditions Galilée, 1976 г.

Некоторые полезные таблицы для частот одной буквы, биграммы, триграммы, тетраграммы и пентаграммы на основе 20 000 слов, которые учитывают комбинации длины слова и позиции буквы для слов длиной от 3 до 7 букв. Ссылки следующие:

  • Майзнер, М.С. Тресселт, Мэн; Волин Б.Р. (1965). «Таблицы подсчета частоты однобуквенных и диграмм для различных комбинаций длины слова и буквенного положения». Дополнения к психономическим монографиям . 1 (2): 13–32. OCLC  639975358 .
  • Майзнер, М.С. Тресселт, Мэн; Волин Б.Р. (1965). «Таблицы количества триграмм для различных комбинаций длины слова и буквенного положения». Дополнения к психономическим монографиям . 1 (3): 33–78.
  • Майзнер, М.С. Тресселт, Мэн; Волин Б.Р. (1965). «Таблицы частотности тетраграммы для различных комбинаций длины слова и буквенного положения». Дополнения к психономическим монографиям . 1 (4): 79–143.
  • Майзнер, М.С. Тресселт, Мэн; Волин Б.Р. (1965). «Таблицы частот пентаграммы для различных комбинаций длины слова и буквенного положения». Дополнения к психономическим монографиям . 1 (5): 144–190.

Внешние ссылки [ править ]

  • Леванд, Роберт Эдвард. «Криптографическая математика» . pages.central.edu . Архивировано из оригинала на 2007-04-02.
  • «Некоторые примеры рейтинга частоты букв в некоторых распространенных языках» . www.bckelk.ukfsn.org .
  • «Визуализация тепловой карты JavaScript, показывающая частоту букв текста на разных раскладках клавиатуры» . www.patrick-wied.at .
  • Норвиг, Питер. «Обновленная версия работы Майзнера с использованием набора данных Google books Ngrams» . norvig.com .
  • Частота писем-simia.net