Блокировать код

В теории кодирования , блочные коды большое и важное семейство кодов с исправлением ошибок , которые кодируют данные в блоках. Существует огромное количество примеров блочных кодов, многие из которых имеют широкий спектр практических применений. Абстрактное определение блочных кодов концептуально полезно, поскольку позволяет теоретикам кодирования, математикам и компьютерным специалистам изучать ограничения всех блочных кодов единым способом. Такие ограничения часто принимают форму границ, которые связывают различные параметры блочного кода друг с другом, такие как его скорость и его способность обнаруживать и исправлять ошибки.

Примеры блочных кодов Рида-Соломона , коды Хэмминга , коды Адамара , коды расширителей , коды Голея , а также коды Рида-Мюллера . Эти примеры также относятся к классу линейных кодов , поэтому они называются линейными блочными кодами . В частности, эти коды известны как алгебраические блочные коды или циклические блочные коды, поскольку они могут быть сгенерированы с использованием логических полиномов.

Алгебраические блочные коды обычно жестко декодируются с использованием алгебраических декодеров. ^{[ жаргон ]}

Термин « блочный код» может также относиться к любому коду с исправлением ошибок, который действует на блок ${\ displaystyle k}$ биты входных данных для производства ${\ displaystyle n}$ биты выходных данных ${\ Displaystyle (п, к)}$ . Следовательно, блочный кодер - это устройство без памяти . В соответствии с этим определением коды, такие как турбокоды , сверточные коды с завершением и другие итеративно декодируемые коды (турбоподобные коды), также будут считаться блочными кодами. Сверточный кодер без завершения может быть примером неблочного (без кадра) кода, который имеет память и вместо этого классифицируется как древовидный код .

В этой статье рассматриваются «алгебраические блочные коды».

Код блока и его параметры

Коды с исправлением ошибок используются для надежной передачи цифровых данных по ненадежным каналам связи, подверженным шумам в канале . Когда отправитель хочет передать, возможно, очень длинный поток данных с использованием блочного кода, отправитель разбивает поток на части некоторого фиксированного размера. Каждая такая часть называется сообщением, и процедура, заданная блочным кодом, кодирует каждое сообщение индивидуально в кодовое слово, также называемое блоком в контексте блочных кодов. Затем отправитель передает все блоки получателю, который, в свою очередь, может использовать некоторый механизм декодирования, чтобы (надеюсь) восстановить исходные сообщения из возможно поврежденных полученных блоков. Производительность и успех всей передачи зависят от параметров канала и блочного кода.

Формально блочный код - это инъективное отображение

{\ Displaystyle C: \ Sigma ^ {k} \ to \ Sigma ^ {n}}

.

Здесь, ${\ displaystyle \ Sigma}$ конечное и непустое множество и ${\ displaystyle k}$ а также ${\ displaystyle n}$ целые числа. Значение и значение этих трех параметров и других параметров, связанных с кодом, описаны ниже.

Алфавит Σ

Кодируемый поток данных моделируется как строка над некоторым алфавитом. ${\ displaystyle \ Sigma}$ . Размер ${\ displaystyle | \ Sigma |}$ алфавита часто записывается как ${\ displaystyle q}$ . Если ${\ displaystyle q = 2}$ , то блочный код называется двоичным блочным кодом. Во многих приложениях полезно учитывать ${\ displaystyle q}$ быть главной силой и определять ${\ displaystyle \ Sigma}$ с конечным полем ${\ displaystyle \ mathbb {F} _ {q}}$ .

Длина сообщения k

Сообщения - это элементы ${\ displaystyle m}$ из ${\ displaystyle \ Sigma ^ {k}}$ , то есть строки длины ${\ displaystyle k}$ . Следовательно, число ${\ displaystyle k}$ называется длиной сообщения или размером блочного кода.

Длина блока n

Длина блока ${\ displaystyle n}$ кода блока - это количество символов в блоке. Следовательно, элементы ${\ displaystyle c}$ из ${\ Displaystyle \ Sigma ^ {п}}$ строки длины ${\ displaystyle n}$ и соответствуют блокам, которые могут быть приняты получателем. Поэтому их еще называют принятыми словами. Если ${\ Displaystyle с = С (м)}$ для какого-то сообщения ${\ displaystyle m}$ , тогда ${\ displaystyle c}$ называется кодовым словом ${\ displaystyle m}$ .

Ставка R

Скорость блочного кода определяются как отношение между его длиной сообщения и его длиной блока:

{\ Displaystyle R = к / п}

.

Большая скорость означает, что количество фактического сообщения на переданный блок велико. В этом смысле скорость измеряет скорость передачи и количество ${\ Displaystyle 1-R}$ измеряет накладные расходы, возникающие из-за кодирования с помощью блочного кода. Это простой теоретический факт, что скорость не может превышать ${\ displaystyle 1}$ поскольку данные, как правило, не могут быть сжаты без потерь. Формально это следует из того, что код ${\ displaystyle C}$ является инъективным отображением.

Расстояние d

Расстояние или минимальное расстояние $d$ блочного кода минимальное количество положений , в которых любые два различных кодовых слова отличаются, и относительное расстояние ${\ displaystyle \ delta}$ это дробь ${\ displaystyle d / n}$ . Формально для полученных слов ${\ displaystyle c_ {1}, c_ {2} \ in \ Sigma ^ {n}}$ , позволять ${\ displaystyle \ Delta (c_ {1}, c_ {2})}$ обозначим расстояние Хэмминга между ${\ displaystyle c_ {1}}$ а также ${\ displaystyle c_ {2}}$ , то есть количество позиций, в которых ${\ displaystyle c_ {1}}$ а также ${\ displaystyle c_ {2}}$ различаются. Тогда минимальное расстояние ${\ displaystyle d}$ кода ${\ displaystyle C}$ определяется как

{\ displaystyle d: = \ min _ {m_ {1}, m_ {2} \ in \ Sigma ^ {k} \ на вершине m_ {1} \ neq m_ {2}} \ Delta [C (m_ {1}) , C (m_ {2})]}

.

Поскольку любой код должен быть инъективным , любые два кодовых слова не будут согласовываться по крайней мере в одной позиции, поэтому расстояние любого кода не менее ${\ displaystyle 1}$ . Кроме того, расстояние равно минимальному весу для линейных блочных кодов, потому что:

{\ displaystyle \ min _ {m_ {1}, m_ {2} \ in \ Sigma ^ {k} \ на вершине m_ {1} \ neq m_ {2}} \ Delta [C (m_ {1}), C ( m_ {2})] = \ min _ {m_ {1}, m_ {2} \ in \ Sigma ^ {k} \ наверху m_ {1} \ neq m_ {2}} \ Delta [\ mathbf {0}, C (m_ {1}) + C (m_ {2})] = \ min _ {m \ in \ Sigma ^ {k} \ atop m \ neq \ mathbf {0}} w [C (m)] = w_ {\ min}}

.

Большее расстояние позволяет больше исправлять и обнаруживать ошибки. Например, если мы рассматриваем только ошибки, которые могут изменить символы отправленного кодового слова, но никогда не стираем и не добавляем их, то количество ошибок - это количество позиций, в которых отправленное кодовое слово и полученное слово отличаются. Код с расстоянием $d$ позволяет приемнику обнаруживать до ${\ displaystyle d-1}$ ошибки передачи с момента изменения ${\ displaystyle d-1}$ позиции кодового слова никогда не могут случайно дать другое кодовое слово. Кроме того, если не более ${\ displaystyle (d-1) / 2}$ возникают ошибки передачи, приемник может однозначно декодировать полученное слово в кодовое слово. Это потому, что каждое полученное слово имеет не более одного кодового слова на расстоянии. ${\ displaystyle (d-1) / 2}$ . Если больше чем ${\ displaystyle (d-1) / 2}$ возникают ошибки передачи, приемник не может однозначно декодировать полученное слово в целом, поскольку может быть несколько возможных кодовых слов. Один из способов для приемника справиться с этой ситуацией - использовать декодирование списка , при котором декодер выводит список всех кодовых слов в определенном радиусе.

Примеры

Как упоминалось выше, существует огромное количество кодов с исправлением ошибок, которые на самом деле являются блочными кодами. Первым кодом исправления ошибок был код Хэмминга (7,4) , разработанный Ричардом У. Хэммингом в 1950 году. Этот код преобразует сообщение, состоящее из 4 бит, в кодовое слово из 7 бит, добавляя 3 бита четности. Следовательно, этот код является блочным кодом. Оказывается, это также линейный код и расстояние 3. В сокращенных обозначениях, приведенных выше, это означает, что код Хэмминга (7,4) является ${\ displaystyle [7,4,3] _ {2}}$ код.

Коды Рида – Соломона представляют собой семейство ${\ displaystyle [п, к, d] _ {q}}$ коды с ${\ Displaystyle д = п-к + 1}$ а также ${\ displaystyle q}$ будучи главной державой . Коды рангов - это семейство ${\ displaystyle [п, к, d] _ {q}}$ коды с ${\ Displaystyle д \ Leq п-к + 1}$ . Коды Адамара представляют собой семейство ${\ displaystyle [п, к, d] _ {2}}$ коды с ${\ Displaystyle п = 2 ^ {к-1}}$ а также ${\ displaystyle d = 2 ^ {k-2}}$ .

Свойства обнаружения и исправления ошибок

Кодовое слово ${\ displaystyle c \ in \ Sigma ^ {n}}$ можно рассматривать как точку в ${\ displaystyle n}$ -размерное пространство ${\ Displaystyle \ Sigma ^ {п}}$ и код ${\ Displaystyle {\ mathcal {C}}}$ это подмножество ${\ Displaystyle \ Sigma ^ {п}}$ . Код ${\ Displaystyle {\ mathcal {C}}}$ имеет расстояние ${\ displaystyle d}$ Значит это ${\ displaystyle \ forall c \ in {\ mathcal {C}}}$ , в шаре Хэмминга с центром в ${\ displaystyle c}$ с радиусом ${\ displaystyle d-1}$ , который определяется как набор ${\ displaystyle n}$ -мерные слова, расстояние Хэмминга которых до ${\ displaystyle c}$ не более чем ${\ displaystyle d-1}$ . По аналогии, ${\ Displaystyle {\ mathcal {C}}}$ с (минимальным) расстоянием ${\ displaystyle d}$ обладает следующими свойствами:

${\ Displaystyle {\ mathcal {C}}}$ может обнаружить ${\ displaystyle d-1}$ ошибки: потому что кодовое слово ${\ displaystyle c}$ - единственное кодовое слово в шаре Хэмминга с центром в самом себе и радиусом ${\ displaystyle d-1}$ , нет шаблонов ошибок ${\ displaystyle d-1}$ или меньшее количество ошибок может изменить одно кодовое слово на другое. Когда приемник обнаруживает, что полученный вектор не является кодовым словом ${\ Displaystyle {\ mathcal {C}}}$ , ошибки обнаружены (но нет гарантии исправления).
${\ Displaystyle {\ mathcal {C}}}$ может исправить ${\ displaystyle \ textstyle \ left \ lfloor {{d-1} \ over 2} \ right \ rfloor}$ ошибки. Потому что кодовое слово ${\ displaystyle c}$ - единственное кодовое слово в шаре Хэмминга с центром в самом себе и радиусом ${\ displaystyle d-1}$ , два шара Хэмминга с центрами в двух разных кодовых словах соответственно с обоими радиусами ${\ displaystyle \ textstyle \ left \ lfloor {{d-1} \ over 2} \ right \ rfloor}$ не пересекаются друг с другом. Следовательно, если мы рассматриваем исправление ошибок как нахождение кодового слова, наиболее близкого к принятому слову ${\ displaystyle y}$ , пока количество ошибок не более ${\ displaystyle \ textstyle \ left \ lfloor {{d-1} \ over 2} \ right \ rfloor}$ , в шаре Хэмминга есть только одно кодовое слово с центром в ${\ displaystyle y}$ с радиусом ${\ displaystyle \ textstyle \ left \ lfloor {{d-1} \ over 2} \ right \ rfloor}$ , поэтому все ошибки можно исправить.
Для декодирования при наличии более ${\ displaystyle (d-1) / 2}$ ошибок, может использоваться декодирование по списку или декодирование по методу максимального правдоподобия .
${\ Displaystyle {\ mathcal {C}}}$ может исправить ${\ displaystyle d-1}$ стирания . Под стиранием это означает, что положение стертого символа известно. Исправление может быть достигнуто ${\ displaystyle q}$ -проходящее декодирование: В ${\ displaystyle i ^ {th}}$ проходя стертую позицию, заполняется ${\ displaystyle i ^ {th}}$ символ и исправление ошибок. Должен быть один проход, что количество ошибок не более чем ${\ displaystyle \ textstyle \ left \ lfloor {{d-1} \ over 2} \ right \ rfloor}$ и поэтому стирания можно исправить.

Нижняя и верхняя границы блочных кодов

Предел Хэмминга

Существуют теоретические пределы (например, предел Хэмминга), но другой вопрос заключается в том, какие коды действительно могут быть построены. Это похоже на упаковку сфер в коробку во многих измерениях. Эта диаграмма показывает конструктивные коды, которые являются линейными и двоичными. В й оси показывает число защищаемых символов к , то у оси числа необходимых проверочных символов п-к . На графике показаны пределы для различных расстояний Хэмминга от 1 (без защиты) до 34. Точками отмечены точные коды:

светло-оранжевый по оси x : тривиальные незащищенные коды
оранжевый на оси Y : тривиальные повторяющиеся коды
темно-оранжевый на наборе данных d = 3: классические совершенные коды Хэмминга
темно-красный и крупнее: единственный идеальный двоичный код Голея

Семейство кодов

${\ Displaystyle C = \ {C_ {я} \} _ {я \ geq 1}}$ называется семейством кодов , где ${\ displaystyle C_ {i}}$ является ${\ Displaystyle (п_ {я}, к_ {я}, д_ {я}) _ {д}}$ код с монотонным возрастанием ${\ displaystyle n_ {i}}$ .

Скорость семейства кодов $C$ определяется как ${\ Displaystyle R (C) = \ lim _ {я \ к \ infty} {k_ {i} \ over n_ {i}}}$

Относительное расстояние семейства кодов $C$ определяется как ${\ displaystyle \ delta (C) = \ lim _ {i \ to \ infty} {d_ {i} \ over n_ {i}}}$

Чтобы изучить взаимосвязь между ${\ Displaystyle R (C)}$ а также ${\ displaystyle \ delta (C)}$ известен набор нижних и верхних границ блочных кодов.

Граница Хэмминга

{\ Displaystyle R \ Leq 1- {1 \ над n} \ CDOT \ log _ {q} \ CDOT \ left [\ sum _ {я = 0} ^ {\ left \ lfloor {{\ delta \ cdot n-1 } \ over 2} \ right \ rfloor} {\ binom {n} {i}} (q-1) ^ {i} \ right]}

Граница синглтона

Ограничение Синглтона заключается в том, что сумма скорости и относительного расстояния блочного кода не может быть намного больше 1:

{\ displaystyle R + \ delta \ leq 1 + {\ frac {1} {n}}}

.

Другими словами, каждый блочный код удовлетворяет неравенству ${\ displaystyle к + d \ leq n + 1}$ . Коды Рида – Соломона являются нетривиальными примерами кодов, удовлетворяющих одноэлементной оценке равенства.

Граница Плоткина

Для ${\ displaystyle q = 2}$ , ${\ Displaystyle R + 2 \ дельта \ leq 1}$ . Другими словами, ${\ Displaystyle к + 2д \ leq п}$ .

В общем случае справедливы следующие оценки Плоткина для любых ${\ Displaystyle C \ substeq \ mathbb {F} _ {q} ^ {n}}$ с расстоянием $d$ :

Если ${\ displaystyle d = \ left (1- {1 \ над q} \ right) n, | C | \ leq 2qn}$
Если ${\ displaystyle d> \ left (1- {1 \ над q} \ right) n, | C | \ leq {qd \ over {qd- \ left (q-1 \ right) n}}}$

Для любого $q$ -арного кода с расстоянием ${\ displaystyle \ delta}$ , ${\ Displaystyle R \ Leq 1- \ влево ({д \ над {q-1}} \ вправо) \ дельта + о \ влево (1 \ вправо)}$

Граница Гилберта – Варшамова

${\ Displaystyle R \ GEQ 1-H_ {д} \ влево (\ дельта \ вправо) - \ эпсилон}$ , где ${\ displaystyle 0 \ leq \ delta \ leq 1- {1 \ над q}, 0 \ leq \ epsilon \ leq 1-H_ {q} \ left (\ delta \ right)}$ , ${\ displaystyle H_ {q} \ left (x \ right) ~ {\ overset {\ underset {\ mathrm {def}} {}} {=}} ~ -x \ cdot \ log _ {q} {x \ over {q-1}} - \ left (1-x \ right) \ cdot \ log _ {q} {\ left (1-x \ right)}}$ является $q-$ мерной функцией энтропии.

Джонсон связан

Определять ${\ Displaystyle J_ {q} \ left (\ delta \ right) ~ {\ overset {\ underset {\ mathrm {def}} {}} {=}} ~ \ left (1- {1 \ over q} \ right ) \ left (1 - {\ sqrt {1- {q \ delta \ over {q-1}}}} \ right)}$ .
Позволять ${\ displaystyle J_ {q} \ left (n, d, e \ right)}$ максимальное количество кодовых слов в шаре Хэмминга радиуса $e$ для любого кода ${\ Displaystyle C \ substeq \ mathbb {F} _ {q} ^ {n}}$ расстояния $d$ .

Затем у нас есть граница Джонсона : ${\ displaystyle J_ {q} \ left (n, d, e \ right) \ leq qnd}$ , если ${\ displaystyle {e \ over n} \ leq {{q-1} \ over q} \ left ({1 - {\ sqrt {1- {q \ over {q-1}}} \ cdot {d \ over n) }}}} \, \ right) = J_ {q} \ left ({d \ over n} \ right)}$

Элиас – Бассалыго

{\ Displaystyle R = {\ log _ {q} {| C |} \ над n} \ leq 1-H_ {q} \ left (J_ {q} \ left (\ delta \ right) \ right) + о \ влево (1 \ вправо)}

Сферы и решетки

Блочные коды связаны с проблемой упаковки сфер, которой на протяжении многих лет уделялось некоторое внимание. В двух измерениях это легко визуализировать. Возьмите связку монет на столе и сдвиньте их вместе. В результате получился шестиугольник, похожий на пчелиное гнездо. Но блочные коды полагаются на большее количество измерений, которые трудно визуализировать. Мощный код Голея, используемый для связи в дальнем космосе, использует 24 измерения. При использовании в качестве двоичного кода (что обычно бывает) размеры относятся к длине кодового слова, как определено выше.

Теория кодирования использует модель N- мерной сферы. Например, сколько пенни можно упаковать в круг на столе или в 3-х измерениях, сколько шариков можно упаковать в глобус. Другие соображения относятся к выбору кода. Например, упаковка шестиугольника в прямоугольную коробку оставит пустые места по углам. По мере увеличения размеров процент пустого пространства становится меньше. Но при определенных размерах упаковка занимает все пространство, и эти коды являются так называемыми совершенными кодами. Таких кодов очень мало.

Другое свойство - количество соседей, которые может иметь одно кодовое слово. ^[1] Опять же, рассмотрим в качестве примера гроши. Сначала упаковываем пенни в прямоугольную сетку. У каждого пенни будет 4 ближайших соседа (и 4 на дальних углах). В шестиугольнике у каждой копейки будет 6 ближайших соседей. Соответственно, в трех и четырех измерениях максимальную упаковку дают 12-гранная и 24-ячеечная с 12 и 24 соседями соответственно. Когда мы увеличиваем размеры, количество ближайших соседей увеличивается очень быстро. В общем, ценность дается числами поцелуев .

В результате увеличивается количество способов, которыми шум заставляет приемник выбирать соседа (следовательно, возникает ошибка). Это фундаментальное ограничение блочных кодов, да и вообще всех кодов. Может быть труднее вызвать ошибку для одного соседа, но количество соседей может быть достаточно большим, так что на самом деле страдает общая вероятность ошибки. ^[1]

Смотрите также

Емкость канала
Теорема Шеннона – Хартли.
Шумный канал
Расшифровка списка ^[1]
Упаковка сфер

Внешние ссылки

Чаран Лэнгтон (2001) Концепции кодирования и блочное кодирование

[schlegel-1] Кристиан Шлегель и Ланс Перес (2004). Решетки и турбо-кодирование . Wiley-IEEE. п. 73. ISBN 978-0-471-22755-7.

[1]