Мотив последовательности

В биологии мотив последовательности - это широко распространенный образец нуклеотидной или аминокислотной последовательности , который обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует все, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует все, кроме остатка Pro .

Мотив последовательности ДНК, представленный в виде логотипа последовательности для LexA-связывающего мотива.

Обзор

При появлении мотива последовательности в экзоне о наличии гена , может кодировать в « структурный мотив » из более белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно связаны с отличительной вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).

Вне экзонов генов существуют мотивы регуляторных последовательностей и мотивы внутри « мусора », такие как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот (см., Например, самосплайсинг РНК ), но это только иногда. Например, многие ДНК-связывающие белки, которые имеют сродство к определенным участкам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы через контакт с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .

В последовательности или базе данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. Также консенсусную последовательность .

Представление мотива

Рассмотрим мотив сайта N -гликозилирования, упомянутый выше:

Asn, за которым следует все, кроме Pro, за которым следует Ser или Thr, за которым следует все, кроме Pro

Этот шаблон можно записать как N{P}[ST]{P}где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо, Xлибо Y.

Обозначения [XY]не дают никаких указаний на вероятность появления Xили присутствия Yв шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательности . Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель .

Мотивы и консенсусные последовательности

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узора часто связаны с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющая последовательность для мотива IQ может быть взята следующим образом:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где xозначает любую аминокислоту, а квадратные скобки указывают альтернативу (см. ниже для получения дополнительной информации об обозначениях).

Однако обычно первая буква - это Iоба [RK]варианта R. Поскольку последний выбор настолько широк, паттерн IQxxxRGxxxRиногда приравнивается к самому мотиву IQ, но более точным описанием будет согласованная последовательность для мотива IQ .

Обозначения описания паттернов

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений для регулярных выражений и используют следующие соглашения:

есть алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
строка символов, взятых из алфавита, обозначает последовательность соответствующих аминокислот;
любая строка символов, взятых из алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например, [abc]соответствует любой из аминокислот, представленных символами aили bили c.

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов нотации шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, шаблон [AB] [CDE] Fсоответствует шесть аминокислотных последовательностей , соответствующих ACF, ADF, AEF, BCF, BDF, и BEF.

Различные нотации описания рисунка имеют другие способы формирования элементов рисунка. Одно из таких обозначений - это обозначение PROSITE, описанное в следующем подразделе.

Обозначение паттернов PROSITE

PROSITE обозначение использует ИЮПАК один-буквенные коды и соответствует приведенному выше описанию, за исключением того, что символ конкатенации, « -», используются между элементами модели, но она часто опускается между буквами алфавита шаблона.

PROSITE позволяет использовать следующие элементы шаблона в дополнение к описанным ранее:

Строчная буква « x» может использоваться как элемент шаблона для обозначения любой аминокислоты.
Строка символов, взятых из алфавита и заключенная в фигурные скобки (фигурные скобки), обозначает любую аминокислоту, кроме тех, что находятся в строке. Например, {ST}обозначает любую аминокислоту, кроме Sили T.
Если шаблон ограничен N-концом последовательности, шаблон имеет префикс ' <'.
Если шаблон ограничен C-концом последовательности, шаблон имеет суффикс ' >'.
Символ ' >' также может находиться внутри шаблона завершающей квадратной скобки, так что он S[T>]соответствует как " ST", так и " S>".
Если e- элемент шаблона, а mи n- два десятичных целых числа с m<= n, то:
- e(m)эквивалентно повторению eровно mраз;
- e(m,n)эквивалентно повторению eровно kраз для любого целого числа, kудовлетворяющего: m<= k<= n.

Несколько примеров:

x(3)эквивалентно x-x-x.
x(2,4)соответствует любой последовательности, которая соответствует x-xили x-x-xили x-x-x-x.

Сигнатура домена цинковых пальцев типа C2H2 :

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Есть два типа весовых матриц.

Матрица частоты положения (PFM) записывает частоту, зависящую от положения каждого остатка или нуклеотида. PFM могут быть экспериментально определены из экспериментов SELEX или обнаружены с помощью вычислений с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
Вес положения матрица (ШИЙ) содержит шансы войти весы для вычисления очков для совпадения. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. ШИМ рассчитываются из ЧИМ.

Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:

Поз	А	C	грамм	Т	ИЮПАК
01	6	2	8	1	р
02	3	5	9	0	S
03	0	0	0	17	Т
04	0	0	17	0	грамм
05	17	0	0	0	А
06	0	16	0	1	C
07	3	2	3	9	Т
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит нотацию IUPAC для этой позиции. Обратите внимание, что суммы вхождений A, C, G и T для каждой строки должны быть равны, потому что PFM получается путем агрегирования нескольких согласованных последовательностей.

Motif Discovery

Обзор

Открытие мотивов последовательности было развито с 1990-х годов. В частности, большинство существующих исследований по обнаружению мотивов сосредоточено на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов сталкиваются как с проблемами вырожденности паттернов последовательности, так и с проблемами масштабируемости вычислений, требующих больших объемов данных.

Открытие мотивов de novo

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм множественной ЭМ для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. ^[1] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al . оценил многие связанные алгоритмы в тесте 2013 года. ^[2] посажен поиск мотива еще один метод обнаружения мотива , который основан на комбинаторном подходе.

Открытие филогенетических мотивов

Мотивы также были обнаружены путем филогенетического подхода и изучения схожих генов у разных видов. Например, сравнивая аминокислотные последовательности, указанные в гене GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили паттерн, который они назвали мотивом GCM в 1996 году. ^[3] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждая .означает одну аминокислоту или пробел, и каждый *указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива, который может использоваться для идентификации других связанных белков. Филогенетический подход также может быть использован для улучшения алгоритма цМема de novo , примером которого является PhyloGibbs. ^[4]

Открытие пары мотивов de novo

В 2017 году MotifHyades был разработан как инструмент для поиска мотивов, который можно напрямую применять к парным последовательностям. ^[5]

Распознавание мотива de novo из белка

В 2018 году был предложен марковский метод случайного поля для вывода мотивов ДНК из ДНК-связывающих доменов белков. ^[6]

Чехлы с мотивами

Трехмерные цепные коды

Кишечной палочки лактозы оперон репрессор LacI ( PDB : 1lcc цепь А) и кишечной палочки ген катаболитной активатор ( PDB : 3gap цепь А) оба имеют спираль-поворот-спираль мотив, но их аминокислотные последовательности не показывают гораздо сходство, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо более четко, чем аминокислотная последовательность (пример из статьи): ^[7] Код кодирует торсионные углы между альфа-атомами углерода в основной цепи белка . «W» всегда соответствует альфа-спирали.

	Трехмерный цепной код	Аминокислотная последовательность
1lccA	`TWWWWWWWKCLKWWWWWWG`	`LYDVAEYAGVSYQTVSRVV`
3gapA	`KWWWWWWGKCFKWWWWWWW`	`RQEIGQIVGCSRETVGRIL`

Смотрите также

Биомолекулярная структура
Поиск мотивов млекопитающих
Множественные ЭМ для выявления мотивов
Последовательность нуклеиновой кислоты
Первичная структура белка
Белковые I-сайты
Логотип последовательности
Последовательный майнинг
Структурный мотив
Короткий линейный мотив

дальнейшее чтение

Вторичные и третичные источники

Кадаверу К., Вьяс Дж, Шиллер М.Р. (май 2008 г.). «Вирусная инфекция и болезни человека - идеи от minimotifs» . Границы биологических наук . 13 (13): 6455–71. DOI : 10,2741 / 3166 . PMC 2628544 . PMID 18508672 .
Стормо GD (январь 2000 г.). «Сайты связывания ДНК: представление и открытие» . Биоинформатика . 16 (1): 16–23. DOI : 10.1093 / биоинформатики / 16.1.16 . PMID 10812473 .

Основные источники

Алтарави Д., Исмаил М.А., Ганем С. (2009). «MProfiler: метод на основе профиля для обнаружения мотивов ДНК». Распознавание образов в биоинформатике . Конспект лекций по информатике. 5780 . С. 13–23. DOI : 10.1007 / 978-3-642-04031-3_2 . ISBN 978-3-642-04030-6. Отсутствует или пусто |title=( справка )
Шиллер MR (2007). Minimotif miner: вычислительный инструмент для исследования функции белков, болезней и генетического разнообразия . Curr Protoc Protein Sci . Глава 2. С. 2.12.1–2.12.14. DOI : 10.1002 / 0471140864.ps0212s48 . ISBN 978-0471140863. PMID 18429315 . S2CID 10406520 .
Балла С., Тапар В., Верма С., Луонг Т., Фагри Т., Хуанг С.Х. и др. (Март 2006 г.). «Minimotif Miner: инструмент для исследования функции белков» . Природные методы . 3 (3): 175–7. DOI : 10.1038 / nmeth856 . PMID 16489333 . S2CID 15571142 .

[Bailey2006-1] Bailey TL, Williams N, Misleh C, Li WW (июль 2006). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей» . Исследования нуклеиновых кислот . 34 (выпуск веб-сервера): W369-73. DOI : 10.1093 / NAR / gkl198 . PMC 1538909 . PMID 16845028 .

[Weirauch2013-2] Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR, et al. (Февраль 2013). «Оценка методов моделирования специфичности последовательностей факторов транскрипции» . Природа Биотехнологии . 31 (2): 126–34. DOI : 10.1038 / nbt.2486 . PMC 3687085 . PMID 23354101 .

[Akiyama1996-3] Акияма Ю., Хосоя Т., Пул А.М., Хотта Ю. (декабрь 1996 г.). «Мотив gcm: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих» . Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Bibcode : 1996PNAS ... 9314912A . DOI : 10.1073 / pnas.93.25.14912 . PMC 26236 . PMID 8962155 .

[Siddharthan2005-4] Сиддхартан Р., Сиггиа Э.Д., ван Нимвеген Э. (декабрь 2005 г.). «PhyloGibbs: программа для поиска мотивов Гиббса, включающая филогению» . PLOS вычислительная биология . 1 (7): e67. Bibcode : 2005PLSCB ... 1 ... 67S . DOI : 10.1371 / journal.pcbi.0010067 . PMC 1309704 . PMID 16477324 .

[pmid28633280-5] Вонг KC (октябрь 2017 г.). «MotifHyades: максимальное ожидание открытия пары мотивов de novo на парных последовательностях» . Биоинформатика . 33 (19): 3028–3035. DOI : 10.1093 / биоинформатики / btx381 . PMID 28633280 .

[pmid30267681-6] Wong KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК по последовательностям белков» . iScience . 7 : 198–211. Bibcode : 2018iSci .... 7..198W . DOI : 10.1016 / j.isci.2018.09.003 . PMC 6153143 . PMID 30267681 .

[Matsuda1997-7] Мацуда Х., Танигучи Ф., Хашимото А (1997). «Подход к обнаружению структурных мотивов белка с использованием схемы кодирования конформаций скелета» (PDF) . Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу : 280–91. PMID 9390299 .

[1]

Мотив последовательности

Обзор

Представление мотива

Мотивы и консенсусные последовательности

Обозначения описания паттернов

Обозначение паттернов PROSITE

Матрицы

Motif Discovery

Обзор

Открытие мотивов de novo

Открытие филогенетических мотивов

Открытие пары мотивов de novo

Распознавание мотива de novo из белка

Чехлы с мотивами

Трехмерные цепные коды

Смотрите также

Рекомендации

Вторичные и третичные источники

Основные источники

дальнейшее чтение

Вторичные и третичные источники

Основные источники