Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Логотип последовательности, показывающий наиболее консервативные основания вокруг инициирующего кодона из всех мРНК человека ( консенсусная последовательность Козака ). Обратите внимание, что кодон инициации не отрисован в масштабе, иначе каждая буква AUG имела бы высоту 2 бита.

В биоинформатики , A последовательность Логотип представляет собой графическое представление сохранения последовательности из нуклеотидов (в цепи ДНК / РНК ) или аминокислотыбелковых последовательностей ). [1] Логотип последовательности создается из набора выровненных последовательностей и отображает согласованную последовательность и разнообразие последовательностей. Логотипы последовательностей часто используются для изображения характеристик последовательностей, таких как сайты связывания с белками в ДНК или функциональные единицы в белках.

Обзор [ править ]

Логотип последовательности состоит из стопки букв в каждой позиции. Относительные размеры букв указывают на их частоту в последовательностях. Общая высота букв отображает информационное содержание позиции в битах.

Создание логотипа [ править ]

Для создания логотипов последовательностей соответствующие последовательности ДНК, РНК или белков или последовательности ДНК, которые имеют общие консервативные сайты связывания, выравниваются так, чтобы наиболее консервативные части создавали хорошее выравнивание. Затем можно создать логотип последовательности из консервативного выравнивания множественных последовательностей . Логотип последовательности покажет, насколько хорошо остатки сохраняются в каждой позиции: чем больше количество остатков, тем выше будут буквы, потому что тем лучше сохраняется сохранение в этой позиции. Различные остатки в одной позиции масштабируются в соответствии с их частотой. Высота всей стопки остатков - это информация, измеряемая в битах . Логотипы последовательностей могут использоваться для обозначения консервативных сайтов связывания ДНК , гдефакторы транскрипции связываются.

Информационное содержание (ось Y) позиции определяется как: [2]

для аминокислот,
для нуклеиновых кислот,

где - неопределенность (иногда называемая энтропией Шеннона ) положения

Здесь - относительная частота основания или аминокислоты в положении , и - поправка для небольшого количества выборок для выравнивания букв. Высота буквы в столбце определяется выражением

Приближение для поправки на малую выборку , определяется выражением:

где 4 для нуклеотидов, 20 для аминокислот и - количество последовательностей в выравнивании.

[ править ]

Консенсус логотип представляет собой упрощенную разновидность логотипа последовательности , которые могут быть встроены в текстовом формате. Подобно логотипу последовательности, консенсусный логотип создается из набора выровненных последовательностей белка или ДНК / РНК и передает информацию о сохранности каждой позиции мотива последовательности или выравнивании последовательностей [1] [3] . Однако консенсусный логотип отображает только информацию о сохранении, а не явную информацию о частоте каждого нуклеотида или аминокислоты.на каждой позиции. Вместо набора из нескольких символов, обозначающих относительную частоту каждого символа, консенсусный логотип отображает степень сохранения каждой позиции с использованием высоты консенсусного символа в этой позиции.

Логотип последовательности для LexA-связывающего мотива нескольких грамположительных видов.
Консенсусный логотип LexA-связывающего мотива нескольких грамположительных видов.

Преимущества и недостатки [ править ]

Основное и очевидное преимущество согласованных логотипов перед последовательными логотипами заключается в их способности встраиваться в виде текста в любой редактор / средство просмотра, поддерживающий формат Rich Text, и, следовательно, в научные рукописи. Как описано выше, консенсусный логотип представляет собой нечто среднее между логотипами последовательностей и согласованными последовательностями.. В результате, по сравнению с логотипом последовательности, консенсусный логотип опускает информацию (относительный вклад каждого символа в сохранение этой позиции в мотиве / выравнивании). Следовательно, по возможности следует предпочтительно использовать логотип последовательности. При этом необходимость включать графические изображения для отображения логотипов последовательностей увековечила использование согласованных последовательностей в научных рукописях, даже если они не могут передать информацию как о сохранении, так и о частоте. [4] Таким образом, согласованные логотипы представляют собой улучшение по сравнению с согласованными последовательностями, когда информация о мотиве / выравнивании должна быть ограничена текстом.

Расширения [ править ]

Скрытые марковские модели (HMM) учитывают не только информационное содержание выровненных позиций в выравнивании, но также вставок и удалений. В логотипе последовательности HMM, используемом Pfam , добавлены три строки, чтобы указать частоты занятости (присутствия) и вставки, а также ожидаемую длину вставки. [5]

Последовательный логотип для СКАЗКИ . Обратите внимание на уменьшенную занятость (синий) в позиции 1 и случайную вставку в позиции 19 (красный).

См. Также [ править ]

  • Мотив последовательности
  • Матрица оценок для конкретной позиции
  • Сайт связывания ДНК

Ссылки [ править ]

  1. ^ а б Шнайдер Т.Д .; Стивенс Р.М. (1990). «Последовательные логотипы: новый способ отображения согласованных последовательностей» . Nucleic Acids Res . 18 (20): 6097–6100. DOI : 10.1093 / NAR / 18.20.6097 . PMC  332411 . PMID  2172928 .
  2. ^ Шнайдер TD; Стормо Г.Д. (1986). «Информационное содержание сайтов связывания нуклеотидных последовательностей» (PDF) . Журнал молекулярной биологии . 188 (3): 415–431. DOI : 10.1016 / 0022-2836 (86) 90165-8 . PMID 3525846 .  
  3. ^ Анзалди LJ; Муньос-Фернандес Д; Эрилл И. (2012). «BioWord: набор для обработки последовательностей для Microsoft Word» (PDF) . BMC Bioinformatics . 13 (124): 124. DOI : 10,1186 / 1471-2105-13-124 . PMC 3546851 . PMID 22676326 .   
  4. Перейти ↑ Schneider TD (2002). «Дзен последовательности согласования» . Appl Bioinform . 1 (3): 111–119. PMC 1852464 . PMID 15130839 .  
  5. ^ Уиллер, Трэвис Дж; Клементс, Джоди; Финн, Роберт Д. (13 января 2014 г.). «Skylign: инструмент для создания информативных интерактивных логотипов, представляющих выравнивание последовательностей и профилирующих скрытых марковских моделей» . BMC Bioinformatics . 15 (1): 7. DOI : 10,1186 / 1471-2105-15-7 . PMC 3893531 . PMID 24410852 .  

Внешние ссылки [ править ]

  • Как читать логотипы последовательностей .
  • Рекомендации по созданию логотипов последовательностей .
  • Эрилл И., "Мягкое введение в содержание информации в сайтах связывания факторов транскрипции", Eprint
  • Что такое (в) логотип последовательности?

Инструменты для создания логотипов последовательностей [ править ]

  • Пакет Python Logomaker для создания индивидуальных логотипов последовательностей (лицензия MIT)
  • RWebLogo R Code, оболочка для кода Python (лицензия BSD)
  • WebLogo Python Code Python Code (лицензия BSD, довольно сложно использовать)
  • WebLogo 3.0 (онлайн)
  • Seq2Logo (онлайн-приложение для выравнивания пептидов с использованием псевдосчета, взвешивания последовательностей и двустороннего представления)
  • GENIO (онлайн)
  • Логотип на основе PWM (онлайн-приложение для мотивированных моделей на основе PWM)
  • LogoBar (приложение Java)
  • CorreLogo Онлайн-сервер для 3D-логотипов последовательностей выравнивания РНК и ДНК
  • Функция seqlogo C для создания логотипов последовательностей ДНК
  • [1] Лента надстройки MS-Word, которая позволяет создавать согласованные логотипы
  • Программа RILogo и веб-сервер для создания логотипов двух взаимодействующих РНК
  • Инструмент Skylign Online для создания логотипов, представляющих как выравнивание последовательностей, так и скрытые профили марковских моделей
  • sequence_motifs.js JQuery плагин для создания мотивов последовательности ( jsfiddle демонстрационного ).