Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Технологии высокопроизводительного секвенирования привели к резкому снижению затрат на секвенирование генома и к удивительно быстрому накоплению геномных данных. Эти технологии позволяют реализовать амбициозные проекты по секвенированию генома, такие как проект « 1000 геномов» и « Проект генома 1001 ( Arabidopsis thaliana )». Хранение и передача огромного количества геномных данных стали основной проблемой, мотивирующей разработку высокопроизводительных инструментов сжатия, разработанных специально для геномных данных. Недавний всплеск интереса к разработке новых алгоритмов и инструментов для хранения и управления данными геномного повторного секвенирования подчеркивает растущий спрос на эффективные методы сжатия геномных данных.

Общие понятия [ править ]

Хотя стандартные инструменты сжатия данных (например, zip и rar) используются для сжатия данных последовательностей (например, плоских файлов GenBank ), этот подход критиковали за экстравагантность, поскольку геномные последовательности часто содержат повторяющееся содержимое (например, микросателлитные последовательности ) или много последовательности демонстрируют высокий уровень сходства (например, множественные последовательности генома одного и того же вида). Кроме того, статистические и теоретико-информационные свойства геномных последовательностей потенциально могут быть использованы для сжатия данных секвенирования. [1] [2] [3]

Рисунок 1: Основные этапы рабочего процесса для сжатия данных геномного повторного секвенирования: (1) обработка исходных данных секвенирования (например, сокращение исходного набора данных только до вариаций относительно указанной эталонной последовательности; (2) кодирование обработанных данных в двоичную форму и (3) декодирование данных обратно в текстовую форму.

Базовые варианты [ править ]

При наличии эталонного шаблона необходимо записывать только различия (например, одиночные нуклеотидные замены и вставки / делеции), что значительно сокращает объем информации, которая должна быть сохранена. Понятие относительной компрессии очевидно, особенно в проектах повторного секвенирования генома, целью которых является обнаружение вариаций в отдельных геномах. Использование эталонной карты однонуклеотидного полиморфизма ( SNP ), такой как dbSNP , можно использовать для дальнейшего увеличения количества вариантов для хранения. [4]

Относительные координаты генома [ править ]

Еще одна полезная идея - хранить относительные координаты генома вместо абсолютных. [4] Например, при представлении оснований вариантов последовательности в формате « Position1Base1Position2Base2… », «123C125T130G» можно сократить до «0C2T5G», где целые числа представляют интервалы между вариантами. Стоимость - это скромные арифметические вычисления, необходимые для восстановления абсолютных координат плюс сохранение поправочного коэффициента («123» в этом примере).

Предварительная информация о геномах [ править ]

Дальнейшее сокращение может быть достигнуто, если заранее известны все возможные положения замен в пуле геномных последовательностей. [4] Например, если все местоположения SNP в человеческой популяции известны, то нет необходимости записывать информацию о координатах вариантов (например, «123C125T130G» можно сократить до «CTG»). Однако этот подход редко бывает уместным, поскольку такая информация обычно неполна или недоступна.

Кодирование геномных координат [ править ]

Схемы кодирования используются для преобразования координатных целых чисел в двоичную форму, чтобы обеспечить дополнительный выигрыш от сжатия. Кодирование конструкции, такие как код Голомбы и кода Хаффмана , которые были включены в геномные инструменты для сжатия данных. [5] [6] [7] [8] [9] [10] Конечно, схемы кодирования влекут за собой сопутствующие алгоритмы декодирования. Выбор схемы декодирования потенциально влияет на эффективность поиска информации о последовательности.

Выбор дизайна алгоритма [ править ]

Универсальный подход к сжатию геномных данных не обязательно может быть оптимальным, поскольку конкретный метод может быть более подходящим для конкретных целей и задач. Таким образом, несколько вариантов дизайна, которые потенциально могут повлиять на производительность сжатия, могут быть важны для рассмотрения.

Справочная последовательность [ править ]

Выбор эталонной последовательности для относительного сжатия может повлиять на эффективность сжатия. Выбор согласованной эталонной последовательности вместо более конкретной эталонной последовательности (например, пересмотренной Кембриджской эталонной последовательности ) может привести к более высокой степени сжатия, поскольку согласованная эталонная последовательность может содержать меньше смещений в своих данных. [4] Знание об источнике сжимаемой последовательности, однако, может быть использовано для достижения большего выигрыша от сжатия. Была предложена идея использования множественных эталонных последовательностей. [4] Brandon et al. (2009) [4] упомянули о потенциальном использовании шаблонов эталонных последовательностей, специфичных для этнических групп, с использованием сжатия митохондриальной ДНК.вариантные данные в качестве примера (см. рисунок 2). Авторы обнаружили смещенное распределение гаплотипов в последовательностях митохондриальной ДНК африканцев, азиатов и евразийцев по сравнению с пересмотренной Кембриджской эталонной последовательностью . Их результат предполагает, что пересмотренная Кембриджская эталонная последовательность не всегда может быть оптимальной, потому что необходимо хранить большее количество вариантов, когда она используется против данных от этнически удаленных людей. Кроме того, эталонная последовательность может быть разработана на основе статистических свойств [1] [4] или разработана [11] [12] для улучшения степени сжатия.

Схемы кодирования [ править ]

Было изучено применение различных типов схем кодирования для кодирования оснований вариантов и геномных координат. [4] Фиксированные коды, такие как код Голомбы и кода Райс , пригодны , когда вариант или координаты (представлен в виде целого числа) распределений хорошо определены. Коды переменных, такие как код Хаффмана , обеспечивают более общую схему энтропийного кодирования, когда лежащий в основе вариант и / или распределение координат не четко определены (обычно это имеет место в данных геномной последовательности).

Список инструментов сжатия данных геномного повторного секвенирования [ править ]

Степень сжатия доступных в настоящее время инструментов сжатия геномных данных колеблется от 65 до 1200 раз для геномов человека. [4] [5] [6] [7] [8] [9] [10] [13] Очень близкие варианты или модификации одного и того же генома могут быть очень эффективно сжаты (например, сообщалось о степени сжатия 18 133 [6]] для двух ревизий одного и того же генома A. thaliana, которые идентичны на 99,999%). Однако такое сжатие не указывает на типичную степень сжатия для разных геномов (особей) одного и того же организма. Наиболее распространенной схемой кодирования среди этих инструментов является кодирование Хаффмана , которое используется для сжатия данных без потерь .

Ссылки [ править ]

  1. ^ a b Джанкарло Р., Д. Скатурро и Ф. Утро. 2009. Сжатие текстовых данных в вычислительной биологии: синопсис. Биоинформатика 25 (13): 1575-1586.
  2. ^ Налбантоглу, Ö. U., DJ Russell и K. Sayood. 2010. Концепции и алгоритмы сжатия данных и их приложения в биоинформатике. Энтропия 12 (1): 34-52.
  3. ^ Хоссейни, Д., Пратас и А. Пинхо. 2016. Обзор методов сжатия данных для биологических последовательностей. Информация 7 (4) :( 2016): 56
  4. ^ a b c d e f g h я Брэндон, М. С., Д. К. Уоллес и П. Балди. 2009. Структуры данных и алгоритмы сжатия данных геномной последовательности. Биоинформатика 25 (14): 1731–1738.
  5. ^ a b c Деорович С. и С. Грабовски. 2011. Устойчивое относительное сжатие геномов с произвольным доступом . Биоинформатика 27 (21): 2979-2986.
  6. ^ a b c d Ван, К., и Д. Чжан. 2011. Новый инструмент сжатия для эффективного хранения данных ресеквенирования генома. Нуклеиновые кислоты Res 39 (7): e45.
  7. ^ a b c Пинхо, AJ, Д. Пратас и С.П. Гарсия. 2012. GReEn: инструмент для эффективного сжатия данных ресеквенирования генома. Нуклеиновые кислоты Res 40 (4): e27.
  8. ^ a b c Тембе, В., Дж. Лоуи и Э. Сух. 2010. G-SQZ: Компактное кодирование геномной последовательности и данных о качестве. Биоинформатика 26 (17): 2192-2194.
  9. ^ a b c Кристли С., Ю. Лу, К. Ли и Х. Се. 2009. Геномика человека как вложения электронной почты. Биоинформатика 25 (2): 274-275.
  10. ^ a b c Павличин, Д.С., Вайсман, Т., и Г. Йона. 2013. Геном человека снова сжимается. Биоинформатика 29 (17): 2199-2202.
  11. ^ Kuruppu, S., SJ Puglisi и J. Зобель. 2011. Построение эталонной последовательности для относительной компрессии геномов. Конспект лекций по информатике 7024 : 420-425.
  12. ^ Grabowski, S. и S. Deorowicz. 2011. Инженерное относительное сжатие геномов. В трудах CoRR.
  13. ^ a b Пратас, Д., Пинхо, AJ, и Феррейра, PJSG Эффективное сжатие геномных последовательностей. Конференция по сжатию данных , Snowbird, Юта, 2016 г.
  14. ^ Lan, D., et al. 2021 Genozip: универсальный расширяемый компрессор геномных данных, Bioinformatics
  15. ^ Тестирование CRAM
  16. ^ Спецификация формата CRAM (версия 3.0)
  17. ^ «Важность сжатия данных в области геномики» . pulse.embs.org . Проверено 17 декабря 2019 .
  18. ^ «ISO / IEC 23092-2: 2019 Информационные технологии - Представление геномной информации - Часть 2: Кодирование геномной информации» . iso.org .
  19. ^ «Введение в MPEG-G, новый стандарт ISO для представления геномной информации» .
  20. ^ «ISO / IEC 23092-2: 2019 Информационные технологии - Представление геномной информации - Часть 2: Кодирование геномной информации» . iso.org .
  21. ^ «Введение в MPEG-G, новый стандарт ISO для представления геномной информации» .