Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Биграммы или биграмма представляет собой последовательность из двух смежных элементов из строки из маркеров , которые , как правило , буквы, слоги или слова. Биграмма - это n -грамма для n = 2. Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в вычислительной лингвистике, криптографии, распознавании речи и т. Д.

Биграммы с ошибками или пропускающие биграммы - это пары слов, которые допускают пропуски (возможно, избегая соединяющих слов или позволяя некоторое моделирование зависимостей, как в грамматике зависимостей ).

Биграммы заглавных слов - это биграммы с пробелами с явным отношением зависимости.

Подробности [ править ]

Биграммы помогают обеспечить условную вероятность токена с учетом предыдущего токена, когда применяется отношение условной вероятности :

То есть вероятность токена с учетом предыдущего токена равна вероятности их биграммы или совместного появления двух токенов , деленной на вероятность предыдущего токена.

Приложения [ править ]

Биграммы используются в большинстве успешных языковых моделей для распознавания речи . [1] Они являются частным случаем N-граммы .

Частотные атаки Bigram могут использоваться в криптографии для решения криптограмм . См. Частотный анализ .

Частота биграмм - один из подходов к статистической идентификации языка .

Некоторые виды деятельности в области логологии или развлекательной лингвистики используют биграммы. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм [2], или слова, содержащие строку повторяющихся биграмм, например, logogogue . [3]

Частота биграмм в английском языке [ править ]

Частота наиболее распространенных буквенных биграмм в маленьком корпусе английского языка составляет: [4]

th 1,52 ен 0,55 нг 0,18он 1,28 ed 0,53 из 0,16от 0,94 до 0,52 и 0,09er 0,94 it 0,50 de 0,090,82 или 0,50 SE 0,08re 0,68 ea 0,47 le 0,08nd 0.63 hi 0.46 sa 0.06при 0,59 составляет 0,46 si 0,05на 0,57 или 0,43 ар 0,04nt 0,56 ti 0,34 ve 0,04га 0,56 как 0,33 ра 0,04es 0,56 te 0,27 ld 0,02ст 0,55 и 0,19 ур 0,02

Доступны полные биграммы для большего корпуса. [5] [6]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Коллинз, Майкл Джон (1996-06-24). «Новый статистический анализатор, основанный на лексических зависимостях биграмм» . Труды 34-го ежегодного собрания Ассоциации компьютерной лингвистики - . Ассоциация компьютерной лингвистики. С. 184–191. arXiv : cmp-lg / 9605012 . DOI : 10.3115 / 981863.981888 . S2CID  12615602 . Проверено 9 октября 2018 .
  2. ^ Коэн, Филип М. (1975). «Начальные биграммы» . Word Ways . 8 (2) . Проверено 11 сентября +2016 .
  3. ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы» . Word Ways . 22 (3) . Проверено 11 сентября +2016 .
  4. ^ Проект Cornell Math Explorer - Шифры замещения
  5. ^ Джонс, Майкл N; DJK Mewhort (август 2004 г.). "Чувствительность к регистру букв и биграмм в больших английских корпусах" . Методы исследования поведения, приборы и компьютеры . 36 (3): 388–396. DOI : 10.3758 / bf03195586 . ISSN 0743-3808 . PMID 15641428 .  
  6. ^ "Частота английских букв: пересмотр Майзнера или ETAOIN SRHLDCU" . norvig.com . Проверено 28 октября 2019 .