Биграммы или биграмма представляет собой последовательность из двух смежных элементов из строки из маркеров , которые , как правило , буквы, слоги или слова. Биграмма - это n -грамма для n = 2. Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в вычислительной лингвистике, криптографии, распознавании речи и т. Д.
Биграммы с ошибками или пропускающие биграммы - это пары слов, которые допускают пропуски (возможно, избегая соединительных слов или позволяя некоторое моделирование зависимостей, как в грамматике зависимостей ).
Биграммы заглавных слов - это биграммы с пробелами с явным отношением зависимости.
Подробности
Биграммы помогают обеспечить условную вероятность токена с учетом предыдущего токена, когда применяется отношение условной вероятности :
То есть вероятность жетона учитывая предыдущий токен равна вероятности их биграммы или совпадению двух токенов , деленное на вероятность предыдущего токена.
Приложения
Биграммы используются в большинстве успешных языковых моделей для распознавания речи . [1] Они являются частным случаем N-граммы .
Частотные атаки Bigram могут использоваться в криптографии для решения криптограмм . См. Частотный анализ .
Частота биграмм - один из подходов к статистической идентификации языка .
Некоторые виды деятельности в области логологии или развлекательной лингвистики используют биграммы. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм [2], или слова, содержащие строку повторяющихся биграмм, например, logogogue . [3]
Частота биграмм в английском языке
Частота наиболее распространенных буквенных биграмм в маленьком корпусе английского языка: [4]
th 1,52 en 0,55 нг 0,18он 1,28 ed 0,53 из 0,16от 0,94 до 0,52 и 0,09er 0,94 it 0,50 de 0,090,82 или 0,50 SE 0,08re 0,68 ea 0,47 le 0,08nd 0.63 hi 0.46 sa 0.06при 0,59 составляет 0,46 si 0,05на 0,57 или 0,43 ар 0,04nt 0,56 ti 0,34 ve 0,04га 0,56 как 0,33 ра 0,04es 0,56 te 0,27 ld 0,02ст 0,55 и 0,19 ур 0,02
Доступны полные биграммные частоты для большего корпуса. [5] [6]
Смотрите также
Рекомендации
- ^ Коллинз, Майкл Джон (1996-06-24). «Новый статистический анализатор, основанный на лексических зависимостях биграмм» . Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики - . Ассоциация компьютерной лингвистики. С. 184–191. arXiv : cmp-lg / 9605012 . DOI : 10.3115 / 981863.981888 . S2CID 12615602 . Проверено 9 октября 2018 .
- ^ Коэн, Филип М. (1975). «Начальные биграммы» . Word Ways . 8 (2) . Проверено 11 сентября 2016 года .
- ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы» . Word Ways . 22 (3) . Проверено 11 сентября 2016 года .
- ^ Проект Cornell Math Explorer - Шифры замещения
- ^ Джонс, Майкл Н; DJK Mewhort (август 2004 г.). "Чувствительность к регистру букв и биграмм в больших английских корпусах" . Методы исследования поведения, приборы и компьютеры . 36 (3): 388–396. DOI : 10.3758 / bf03195586 . ISSN 0743-3808 . PMID 15641428 .
- ^ «Частота английских букв: пересмотр Майзнера или ETAOIN SRHLDCU» . norvig.com . Проверено 28 октября 2019 .