Ремонт

Re-Pair (сокращение от Recursive Pairing) - это алгоритм сжатия на основе грамматики, который по входному тексту строит прямолинейную программу , то есть неконтекстную грамматику, генерирующую единственную строку: входной текст. Грамматика строится путем рекурсивной замены пары символов, наиболее часто встречающейся в тексте. Как только пара символов не встречается дважды, полученная строка используется как аксиома грамматики. Следовательно, грамматика вывода такова, что все правила, кроме аксиомы, имеют два символа в правой части.

Как это работает

Построение программы прямой линии, которая генерирует строку w = "xabcabcy123123zabc" с помощью Re-Pair

Re-Pair была впервые представлена NJ. Ларссон и А. Моффат ^[1] в 1999 г.

В их статье алгоритм представлен вместе с подробным описанием структур данных, необходимых для его реализации с линейной временной и пространственной сложностью. Эксперименты показали, что Re-Pair обеспечивает высокую степень сжатия и хорошую производительность при декомпрессии. Однако основным недостатком алгоритма является потребление памяти, которое примерно в 5 раз превышает размер входных данных. Такое использование памяти требуется для выполнения сжатия за линейное время, но делает алгоритм непрактичным для сжатия больших файлов.

Изображение справа показывает, как работает алгоритм сжатия строки ${\ displaystyle w = xabcabcy123123zabc}$ .

На первой итерации пара ${\ displaystyle ab}$ , которое встречается трижды в ${\ displaystyle w}$ , заменяется новым символом ${\ displaystyle R_ {1}}$ . На второй итерации самая частая пара в строке ${\ displaystyle w = xR_ {1} cR_ {1} cy123123zR_ {1} c}$ , который ${\ displaystyle R_ {1} c}$ , заменяется новым символом ${\ displaystyle R_ {2}}$ . Таким образом, в конце второй итерации оставшаяся строка будет ${\ displaystyle w = xR_ {2} R_ {2} y123123zR_ {2}}$ . В следующих двух итерациях пары ${\ displaystyle 12}$ а также ${\ displaystyle R_ {3} 3}$ заменяются символами ${\ displaystyle R_ {3}}$ а также ${\ displaystyle R_ {4}}$ соответственно. Наконец, строка ${\ displaystyle w = xR_ {2} R_ {2} yR_ {4} R_ {4} zR_ {2}}$ не содержит повторяющейся пары и поэтому используется как аксиома выходной грамматики.

Структуры данных

Для достижения линейной временной сложности Re-Pair требует следующих структур данных

Последовательность, представляющая входную строку. Должность ${\ displaystyle i}$ последовательности содержит i-й символ входной строки плюс две ссылки на другие позиции в последовательности. Эти ссылки указывают на следующие / предыдущие позиции, например ${\ displaystyle k}$ а также ${\ displaystyle m}$ , такая, что та же подстрока начинается с ${\ Displaystyle ш [я]}$ , ${\ Displaystyle ш [к]}$ а также ${\ Displaystyle ш [м]}$ и все три вхождения фиксируются одной и той же ссылкой (т. е. в грамматике есть переменная, генерирующая строку).
Очередь с приоритетом . Каждый элемент очереди - это пара символов (терминалы или ранее определенные пары), которые последовательно встречаются в последовательности. Приоритет пары определяется количеством вхождений пары в оставшейся последовательности. Каждый раз, когда создается новая пара, очередь приоритетов обновляется.
Хеш-таблица для отслеживания уже определенных пар. Эта таблица обновляется каждый раз, когда создается или удаляется новая пара.

Поскольку хеш-таблица и очередь приоритетов относятся к одним и тем же элементам (парам), они могут быть реализованы с помощью общей структуры данных, называемой PAIR, с указателями для хеш-таблицы (h_next) и очереди приоритетов (p_next и p_prev). Кроме того, каждая PAIR указывает на начало первого (f_pos) и последнего (b_pos) вхождений строки, представленной PAIR в последовательности. На следующем рисунке показан обзор этой структуры данных.

Data structure to implement the Recursive Pairing algorithm with linear runtime and space usage.

На следующих двух рисунках показан пример того, как эти структуры данных выглядят после инициализации и после применения одного шага процесса сопряжения (указатели на NULL не отображаются):

State of the data structures used by the Recursive Pairing algorithm after going through the input text.

Кодирование грамматики

После того, как грамматика была построена для данной входной строки, чтобы добиться эффективного сжатия, эта грамматика должна быть эффективно закодирована. Одним из простейших методов кодирования грамматики является неявное кодирование , которое заключается в encodeCFG(X)последовательном вызове функции , описанной ниже, на всех символах аксиомы. Интуитивно правила кодируются по мере их посещения при обходе грамматики в глубину. При первом посещении правила его правая часть рекурсивно кодируется, и правилу присваивается новый код. С этого момента при достижении правила записывается присвоенное значение.

num_rules_encoded  =  256  // По умолчанию расширенная кодировка ASCII является терминалами грамматики.writeSymbol ( символ  s )  {  bitslen  =  log ( num_rules_encoded );  // Изначально 8, чтобы описать любой расширенный символ ASCII,  записывает  s  в  двоичном формате  с использованием  битов bitlen  }недействительными  encodeCFG_rec ( символ  s )  {  если  ( ы  это  не - терминал ,  и  это  является  в  первый  часовом  Symbol  сек  появляется )  {  принять  правило  сек  →  X  Y ;  записать  бит  1 ;  encodeCFG_rec ( X );  encodeCFG_rec ( Y );  назначить  для  символа  сек  значения  ++ num_rules_encoded ;  }  else  {  записываем  бит  0 ;  writeSymbol ( терминал / присвоенное значение  ) } } недействительный  encodeCFG ( символ  s )  {  encodeCFG_rec ( ы );  записать  бит  1 ; }

Другая возможность - разделить правила грамматики на поколения так, чтобы правило ${\ displaystyle X \ to YZ}$ принадлежит поколению ${\ displaystyle i}$ если и только один из ${\ displaystyle Y}$ или же ${\ displaystyle Z}$ принадлежит поколению ${\ displaystyle i {-} 1}$ а другой принадлежит поколению ${\ displaystyle j}$ с участием ${\ displaystyle j \ leq i {-} 1}$ . Затем эти поколения кодируются последовательно, начиная с поколения ${\ displaystyle 0}$ . Это был метод, предложенный первоначально, когда впервые была представлена Re-Pair . Однако в большинстве реализаций Re-Pair используется неявный метод кодирования из-за его простоты и хорошей производительности. Кроме того, он позволяет производить декомпрессию на лету.

Версии

Существует несколько различных реализаций Re-Pair . Каждая из этих версий направлена на улучшение одного конкретного аспекта алгоритма, такого как сокращение времени выполнения, уменьшение занимаемого места или увеличение степени сжатия.

Улучшение	Год	Выполнение	Описание
Просмотр фраз ^[2]	2003 г.	[1]	Вместо того, чтобы манипулировать входной строкой как последовательностью символов, этот инструмент сначала группирует символы в фразы (например, слова). Алгоритм сжатия работает как Re-Pair, но рассматривает идентифицированные фразы как терминалы грамматики. Инструмент принимает различные варианты, чтобы решить, какие фразы следует учитывать, и кодирует полученную грамматику в отдельные файлы: один содержит аксиому, а другой - остальные правила.
Оригинал	2011 г.	[2]	Это одна из самых популярных реализаций Re-Pair. Он использует описанные здесь структуры данных (те, которые были предложены при первоначальной публикации ^[1] ) и кодирует полученную грамматику с использованием метода неявного кодирования. Большинство более поздних версий Re-Pair реализованы, начиная с этой.
Кодировка ^[3]	2013	[3]	Вместо неявного метода кодирования в этой реализации используется метод от переменной длины до фиксированной длины, в котором каждое правило (представленное строкой переменной длины) кодируется с использованием кода фиксированной длины.
Использование памяти ^[4]	2017 г.	[4]	Алгоритм выполняется в два этапа. На первом этапе он рассматривает высокочастотные пары , то есть те, которые встречаются более чем ${\ displaystyle \ lceil {\ sqrt {n}} / 3 \ rceil}$ раз, в то время как пары низких частот рассматриваются во втором. Основное различие между двумя фазами - это реализация соответствующих очередей приоритетов.
Сжатие ^[5]	2017 г.	[5]	Эта версия изменяет способ выбора следующей заменяемой пары. Вместо того, чтобы просто рассматривать наиболее часто встречающуюся пару, он использует эвристику, которая штрафует пары, которые не согласуются с факторизацией Лемпеля-Зива входной строки.
Сжатие ^[6]	2018 г.	[6]	Этот алгоритм уменьшает размер грамматики, сгенерированной Re-Pair, сначала заменяя максимальное количество повторов. Когда пара определяется как наиболее часто встречающаяся пара, то есть та, которая должна быть заменена на текущем шаге алгоритма, MR-repair расширяет пару, чтобы найти самую длинную строку, которая встречается такое же количество раз, как и пара, подлежащая замене. Предоставленная реализация кодирует грамматику, просто перечисляя правила в тексте, поэтому этот инструмент предназначен исключительно для исследовательских целей и не может использоваться для сжатия как таковой.

Ремонт

Как это работает

Структуры данных

Кодирование грамматики

Версии

Смотрите также

Рекомендации