Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Мотив последовательности ДНК, представленный как логотип последовательности для LexA-связывающего мотива.

В биологии мотив последовательности - это широко распространенный образец нуклеотидной или аминокислотной последовательности , который обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует все, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует все, кроме остатка Pro .

Обзор [ править ]

При появлении мотива последовательности в экзоне о наличии гена , может кодировать в « структурный мотив » из более белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно связаны с отличительной вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).

Вне экзонов генов существуют мотивы регуляторных последовательностей и мотивы внутри « мусора », такие как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот (см., Например, самосплайсинг РНК ), но это только иногда. Например, многие ДНК-связывающие белки, которые имеют сродство к определенным участкам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы через контакт с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .

В последовательности или базе данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. Также консенсусную последовательность .

Представление мотивов [ править ]

Рассмотрим мотив сайта N -гликозилирования, упомянутый выше:

Asn, за которым следует все, кроме Pro, за которым следует Ser или Thr, за которым следует все, кроме Pro

Этот шаблон можно записать как N{P}[ST]{P}где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо, Xлибо Y.

Обозначения [XY]не дают никаких указаний на вероятность появления Xили присутствия Yв шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательности . Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель .

Мотивы и согласованные последовательности [ править ]

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узора часто связаны с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющая последовательность для мотива IQ может быть взята следующим образом:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где xозначает любую аминокислоту, а квадратные скобки указывают альтернативу (см. ниже для получения дополнительной информации об обозначениях).

Однако обычно первая буква - это Iоба [RK]варианта R. Поскольку последний выбор настолько широк, паттерн IQxxxRGxxxRиногда приравнивается к самому мотиву IQ, но более точным описанием будет согласованная последовательность для мотива IQ .

Обозначения описания паттернов [ править ]

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений для регулярных выражений и используют следующие соглашения:

  • есть алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
  • строка символов, взятых из алфавита, обозначает последовательность соответствующих аминокислот;
  • любая строка символов, взятых из алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например, [abc]соответствует любой из аминокислот, представленных символами aили bили c.

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов нотации шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, шаблон [AB] [CDE] Fсоответствует шесть аминокислотных последовательностей , соответствующих ACF, ADF, AEF, BCF, BDF, и BEF.

Различные обозначения описания шаблона имеют другие способы формирования элементов шаблона. Одно из таких обозначений - это обозначение PROSITE, описанное в следующем подразделе.

Обозначение паттернов PROSITE [ править ]

PROSITE обозначение использует ИЮПАК один-буквенные коды и соответствует приведенному выше описанию, за исключением того, что символ конкатенации, « -», используются между элементами модели, но она часто опускается между буквами алфавита шаблона.

PROSITE позволяет использовать следующие элементы шаблона в дополнение к описанным ранее:

  • Строчная буква « x» может использоваться как элемент шаблона для обозначения любой аминокислоты.
  • Строка символов, взятых из алфавита и заключенная в фигурные скобки (фигурные скобки), обозначает любую аминокислоту, кроме тех, что находятся в строке. Например, {ST}обозначает любую аминокислоту, кроме Sили T.
  • Если шаблон ограничен N-концом последовательности, шаблон имеет префикс ' <'.
  • Если шаблон ограничен C-концом последовательности, шаблон имеет суффикс ' >'.
  • Символ ' >' также может находиться внутри шаблона завершающей квадратной скобки, так что он S[T>]соответствует как " ST", так и " S>".
  • Если e- элемент шаблона, а mи n- два десятичных целых числа с m<= n, то:
    • e(m)эквивалентно повторению eровно mраз;
    • e(m,n)эквивалентно повторению eровно kраз для любого целого числа, kудовлетворяющего: m<= k<= n.

Несколько примеров:

  • x(3)эквивалентно x-x-x.
  • x(2,4)соответствует любой последовательности, которая соответствует x-xили x-x-xили x-x-x-x.

Сигнатура домена цинковых пальцев типа C2H2 :

  • C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Матрицы [ править ]

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Есть два типа весовых матриц.

  • Матрица частоты положения (PFM) записывает частоту, зависящую от положения каждого остатка или нуклеотида. PFM могут быть экспериментально определены из экспериментов SELEX или обнаружены с помощью вычислений с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
  • Вес положения матрица (ШИЙ) содержит шансы войти весы для вычисления очков для совпадения. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. ШИМ рассчитываются из ЧИМ.

Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:

Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит нотацию IUPAC для этой позиции. Обратите внимание, что суммы вхождений A, C, G и T для каждой строки должны быть равны, потому что PFM получается путем агрегирования нескольких согласованных последовательностей.

Motif Discovery [ править ]

Обзор [ править ]

Открытие мотивов последовательности было развито с 1990-х годов. В частности, большинство существующих исследований по обнаружению мотивов сосредоточено на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов сталкиваются как с проблемами вырожденности последовательностей, так и с проблемами масштабируемости вычислений, требующих больших объемов данных.

Открытие мотивов de novo [ править ]

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм множественной ЭМ для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. [1] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al . оценил многие связанные алгоритмы в тесте 2013 года. [2] посажен поиск мотива еще один метод обнаружения мотива , который основан на комбинаторном подходе.

Открытие филогенетических мотивов [ править ]

Мотивы также были обнаружены путем филогенетического подхода и изучения схожих генов у разных видов. Например, сравнивая аминокислотные последовательности, указанные в гене GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили паттерн, который они назвали мотивом GCM в 1996 году. [3] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждая .означает одну аминокислоту или пробел, и каждый *указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива, который может использоваться для идентификации других связанных белков. Филогенетический подход также может быть использован для улучшения алгоритма цМема de novo , примером которого является PhyloGibbs. [4]

Открытие пары мотивов de novo [ править ]

В 2017 году MotifHyades был разработан как инструмент для поиска мотивов, который можно напрямую применять к парным последовательностям. [5]

Распознавание мотива de novo из белка [ править ]

В 2018 году был предложен марковский метод случайного поля для вывода мотивов ДНК из ДНК-связывающих доменов белков. [6]

Корпуса с мотивами [ править ]

Трехмерные цепные коды [ править ]

Кишечной палочки лактозы оперон репрессор LacI ( PDB : 1lcc цепь А) и кишечной палочки ген катаболитной активатор ( PDB : 3gap цепь А) оба имеют спираль-поворот-спираль мотив, но их аминокислотные последовательности не показывают гораздо сходство, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо яснее, чем аминокислотная последовательность (пример из статьи): [7] Код кодирует торсионные углымежду альфа-атомами углерода в основной цепи белка . «W» всегда соответствует альфа-спирали.

См. Также [ править ]

  • Биомолекулярная структура
  • Поиск мотивов млекопитающих
  • Множественные ЭМ для выявления мотивов
  • Последовательность нуклеиновой кислоты
  • Первичная структура белка
  • Белковые I-сайты
  • Логотип последовательности
  • Последовательный майнинг
  • Структурный мотив
  • Короткий линейный мотив

Ссылки [ править ]

Вторичные и третичные источники [ править ]

Первоисточники [ править ]

  1. ^ Bailey TL, Williams N, Misleh C, Li WW (июль 2006). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей» . Исследования нуклеиновых кислот . 34 (выпуск веб-сервера): W369-73. DOI : 10.1093 / NAR / gkl198 . PMC  1538909 . PMID  16845028 .
  2. ^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR и др. (Февраль 2013). «Оценка методов моделирования специфичности последовательностей факторов транскрипции» . Природа Биотехнологии . 31 (2): 126–34. DOI : 10.1038 / nbt.2486 . PMC 3687085 . PMID 23354101 .  
  3. Akiyama Y, Hosoya T, Poole AM, Hotta Y (декабрь 1996). «Мотив gcm: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих» . Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Bibcode : 1996PNAS ... 9314912A . DOI : 10.1073 / pnas.93.25.14912 . PMC 26236 . PMID 8962155 .  
  4. ^ Siddharthan R, Siggia ED, ван Нимвеген E (декабрь 2005). «PhyloGibbs: программа для поиска мотивов Гиббса, включающая филогению» . PLOS Вычислительная биология . 1 (7): e67. Bibcode : 2005PLSCB ... 1 ... 67S . DOI : 10.1371 / journal.pcbi.0010067 . PMC 1309704 . PMID 16477324 .  
  5. Wong KC (октябрь 2017 г.). «MotifHyades: максимальное ожидание открытия пары мотивов de novo на парных последовательностях» . Биоинформатика . 33 (19): 3028–3035. DOI : 10.1093 / биоинформатики / btx381 . PMID 28633280 . 
  6. Wong KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК по последовательностям белков» . iScience . 7 : 198–211. Bibcode : 2018iSci .... 7..198W . DOI : 10.1016 / j.isci.2018.09.003 . PMC 6153143 . PMID 30267681 .  
  7. Перейти ↑ Matsuda H, Taniguchi F, Hashimoto A (1997). «Подход к обнаружению структурных мотивов белка с использованием схемы кодирования конформаций скелета» (PDF) . Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу : 280–91. PMID 9390299 .  

Дальнейшее чтение [ править ]

Вторичные и третичные источники [ править ]

  • Кадаверу К., Вьяс Дж., Шиллер М.Р. (май 2008 г.). «Вирусная инфекция и болезни человека - идеи от minimotifs» . Границы биологических наук . 13 (13): 6455–71. DOI : 10,2741 / 3166 . PMC  2628544 . PMID  18508672 .
  • Стормо GD (январь 2000 г.). «Сайты связывания ДНК: представление и открытие» . Биоинформатика . 16 (1): 16–23. DOI : 10.1093 / биоинформатики / 16.1.16 . PMID  10812473 .

Первоисточники [ править ]

  • Алтарави Д., Исмаил М.А., Ганем С. (2009). «MProfiler: метод на основе профиля для обнаружения мотивов ДНК». Распознавание образов в биоинформатике . Конспект лекций по информатике. 5780 . С. 13–23. DOI : 10.1007 / 978-3-642-04031-3_2 . ISBN 978-3-642-04030-6. Отсутствует или пусто |title=( справка )
  • Шиллер MR (2007). Minimotif miner: вычислительный инструмент для исследования функции белков, болезней и генетического разнообразия . Curr Protoc Protein Sci . Глава 2. С. 2.12.1–2.12.14. DOI : 10.1002 / 0471140864.ps0212s48 . ISBN 978-0471140863. PMID  18429315 . S2CID  10406520 .
  • Балла С., Тапар В., Верма С., Луонг Т., Фагри Т., Хуанг С.Х. и др. (Март 2006 г.). «Minimotif Miner: инструмент для исследования функции белков» . Методы природы . 3 (3): 175–7. DOI : 10.1038 / nmeth856 . PMID  16489333 . S2CID  15571142 .