Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В биоинформатики , анализ последовательности представляет собой процесс подвергая ДНК , РНК или пептидную последовательность любой из широкого спектра аналитических методов , чтобы понять его особенности, функции, структуру или эволюцию. Используемые методологии включают выравнивание последовательностей , поиск в биологических базах данных и другие. [1] С момента разработки методов высокопроизводительного производства последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличивалась экспоненциально.. Такой набор последовательностей сам по себе не улучшает понимание ученым биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого происходит новая последовательность. Таким образом, анализ последовательностей может использоваться для определения функции генов и белков путем изучения сходства между сравниваемыми последовательностями. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализ продукта выравнивания, чтобы понять его биологию.

Анализ последовательностей в молекулярной биологии включает очень широкий круг актуальных тем:

  1. Сравнение последовательностей с целью выявления сходства, часто чтобы сделать вывод, связаны ли они ( гомологичны )
  2. Идентификация внутренних характеристик последовательности, таких как активные сайты , сайты посттрансляционных модификаций , генные структуры , рамки считывания , распределение интронов и экзонов и регуляторные элементы
  3. Выявление различий и вариаций последовательностей, таких как точечные мутации и однонуклеотидный полиморфизм (SNP), для получения генетического маркера .
  4. Выявление эволюции и генетического разнообразия последовательностей и организмов
  5. Идентификация молекулярной структуры только по последовательности

В химии анализ последовательностей включает методы, используемые для определения последовательности полимера, образованного из нескольких мономеров (см. Анализ последовательности синтетических полимеров ). В молекулярной биологии и генетике тот же процесс называется просто « секвенированием ».

В маркетинге анализ последовательности часто используется в аналитических приложениях для управления взаимоотношениями с клиентами, например в моделях NPTB (Next Product to Buy).

В социологии последовательные методы все чаще используются для изучения жизненного пути и карьерных траекторий, моделей организационного и национального развития, структуры разговоров и взаимодействия, а также проблемы синхронизации работы и семьи. Эти исследования привели к появлению нового подполя анализа социальной последовательности .

История [ править ]

С тех пор, как самые первые последовательности белка инсулина были охарактеризованы Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функцию молекул. [2] [3] Открытия он и его коллеги способствовали успешному секвенированию первого генома на основе ДНК. [4] Метод, использованный в этом исследовании, который называется «методом Сэнгера» или секвенированием по Сэнгеру , стал важной вехой в секвенировании длинноцепочечных молекул, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека . [5] Согласно Майклу Левитту , анализ последовательностей зародился в период с 1969–1977 гг. [6]В 1969 году анализ последовательностей транспортной РНК был использован для вывода остаточных взаимодействий на основе коррелированных изменений в нуклеотидных последовательностях, что дало начало модели вторичной структуры тРНК . [7] В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм для выравнивания двух последовательностей. [8] За это время разработки в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. [9] Роберт Холли и его команда из Корнельского университета считались первыми, кто секвенировал Молекула РНК. [10]

Выравнивание последовательности [ править ]

Пример множественного выравнивания последовательностей

Известны миллионы белковых и нуклеотидных последовательностей. Эти последовательности попадают во многие группы связанных последовательностей, известных как семейства белков или семейства генов. Взаимосвязи между этими последовательностями обычно обнаруживают, сравнивая их вместе и присваивая этому выравниванию оценку. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей одновременно сравниваются только две последовательности, а при множественном выравнивании последовательностей сравниваются многие последовательности. Два важных алгоритмами для выравнивания пар последовательностей являются алгоритмом Needleman-Wunsch и алгоритм Смита-Уотерман . Популярные инструменты для выравнивания последовательностей включают:

  • Попарное выравнивание - BLAST , точечные графики
  • Множественное выравнивание - ClustalW , PROBCONS , MUSCLE , MAFFT и T-Coffee .

Обычно для попарного выравнивания последовательностей используют интересующую последовательность и сравнивают ее со всеми известными последовательностями в базе данных для идентификации гомологичных последовательностей . Как правило, совпадения в базе данных упорядочены так, чтобы сначала отображались наиболее близкие последовательности, а затем последовательности с уменьшающимся сходством. Эти совпадения обычно сообщаются с мерой статистической значимости, например значением ожидания .

Сравнение профилей [ править ]

В 1987 году Майкл Грибсков, Эндрю Маклахлан и Дэвид Эйзенберг представили метод сравнения профилей для определения отдаленного сходства между белками. [11] Вместо использования одной последовательности, методы профилей используют выравнивание множественных последовательностей для кодирования профиля, который содержит информацию об уровне сохранения каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти связанные последовательности. Профили также известны как оценочные матрицы для конкретных позиций (PSSM). В 1993 году Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей . [12] [13] Эти модели стали известны как профильные HMM.

В последние годы [ когда? ] разработаны методы, позволяющие напрямую сравнивать профили друг с другом. Эти методы известны как методы сравнения профилей. [14]

Сборка последовательности [ править ]

Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК . Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируются путем (1) разрезания ДНК на мелкие части, (2) считывания небольших фрагментов и (3) ) воссоздание исходной ДНК путем объединения информации о различных фрагментах.

В последнее время секвенирование нескольких видов за один раз стало одной из важнейших исследовательских задач. Метагеномика - это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивируемых в лаборатории микроорганизмов, образец дикой природы обычно содержит десятки, а иногда и тысячи видов микроорганизмов из их первоначальных мест обитания. [15] Восстановление исходных геномов может оказаться очень сложной задачей.

Предсказание гена [ править ]

Прогнозирование или поиск генов относится к процессу идентификации участков геномной ДНК, которые кодируют гены . Это включает гены, кодирующие белки, а также гены РНК , но также может включать прогнозирование других функциональных элементов, таких как регуляторные области . Джери - один из первых и наиболее важных шагов в понимании генома вида после его секвенирования . В целом, предсказание бактериальных генов значительно проще и точнее, чем предсказание генов у эукариотических видов, которые обычно имеют сложный интрон / экзон.узоры. Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. Скрытые марковские модели могут быть частью решения. [16] Машинное обучение сыграло значительную роль в предсказании последовательности факторов транскрипции. [17] Традиционный анализ секвенирования сосредоточен на статистических параметрах самой нуклеотидной последовательности (наиболее часто используемые программы перечислены в таблице 4.1 ). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. Таблицу 4.3 ). [18] Два описанных здесь метода ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены, и было предложено эквивалентное, если не большее, влияние на поведение этих молекул. [19]

Прогнозирование структуры белка [ править ]

Структура целевого белка (3dsm, показана лентами) с остовами Calpha (серым цветом) из 354 предсказанных моделей, представленных в эксперименте по предсказанию структуры CASP8.

Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку структурное предсказание больших молекул на атомном уровне - это в значительной степени неразрешимая проблема, некоторые биологи предложили способы предсказания трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурный вывод из гомологов (или других потенциально связанных белков) с известными трехмерными структурами.

Существует множество различных подходов к решению проблемы предсказания структуры. Чтобы определить, какие методы были наиболее эффективными, было организовано соревнование по предсказанию структуры под названием CASP (Критическая оценка предсказания структуры). [20]

Методология [ править ]

Задачи, которые лежат в области анализа последовательностей, часто нетривиальны для решения и требуют использования относительно сложных подходов. Из множества методов, используемых на практике, к наиболее популярным относятся:

  • Образцы ДНК
  • Динамическое программирование
  • Искусственная нейронная сеть
  • Скрытая марковская модель
  • Машина опорных векторов
  • Кластеризация
  • Байесовская сеть
  • Регрессивный анализ
  • Последовательный майнинг
  • Анализ последовательности без выравнивания

См. Также [ править ]

  • Список программного обеспечения для выравнивания последовательностей
  • Список программного обеспечения для визуализации центровки
  • Список программ филогенетики
  • Список программ визуализации филогенетического дерева
  • Список программ для предсказания структуры белков
  • Список программ для предсказания структуры РНК
  • Анализ социальной последовательности

Ссылки [ править ]

  1. ^ Дурбин, Ричард М .; Эдди, Шон Р .; Крог, Андерс ; Митчисон, Грэм (1998), Анализ биологической последовательности: вероятностные модели белков и нуклеиновых кислот (1-е изд.), Кембридж, Нью-Йорк: Cambridge University Press , doi : 10.2277 / 0521629713 , ISBN 0-521-62971-3, OCLC  593254083
  2. ^ Сэнгер Ф; Таппи Х (сентябрь 1951 г.). «Аминокислотная последовательность в фенилаланильной цепи инсулина. I. Идентификация низших пептидов из частичных гидролизатов» . Biochem. Дж . 49 (4): 463–81. DOI : 10.1042 / bj0490463 . PMC 1197535 . PMID 14886310 .  
  3. ^ SANGER F; TUPPY H (сентябрь 1951 г.). «Аминокислотная последовательность в фенилаланильной цепи инсулина. 2. Исследование пептидов из ферментативных гидролизатов» . Biochem. Дж . 49 (4): 481–90. DOI : 10.1042 / bj0490481 . PMC 1197536 . PMID 14886311 .  
  4. ^ Сэнгер, F; Никлен, S; Колсон, АР (декабрь 1977 г.). «Секвенирование ДНК с помощью ингибиторов обрыва цепи» . Proc Natl Acad Sci USA . 74 (12): 441–448. Bibcode : 1977PNAS ... 74.5463S . DOI : 10.1073 / pnas.74.12.5463 . PMC 431765 . PMID 271968 .  
  5. ^ Сэнгер, F; Air, GM; Barrell, BG; Браун, Нидерланды; Колсон, АР; Фиддес, Калифорния; Хатчисон, Калифорния; Слокомб, PM; Смит, М. (февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Природа . 265 (5596): 687–695. Bibcode : 1977Natur.265..687S . DOI : 10.1038 / 265687a0 . PMID 870828 . S2CID 4206886 .  
  6. Перейти ↑ Levitt M (май 2001). «Рождение вычислительной структурной биологии». Структурная и молекулярная биология природы . 8 (5): 392–3. DOI : 10.1038 / 87545 . PMID 11323711 . S2CID 6519868 .  
  7. Levitt M (ноябрь 1969). «Подробная молекулярная модель переноса рибонуклеиновой кислоты». Природа . 224 (5221): 759–63. Bibcode : 1969Natur.224..759L . DOI : 10.1038 / 224759a0 . PMID 5361649 . S2CID 983981 .  
  8. ^ Needleman SB; Компакт-диск Wunsch (март 1970 г.). «Общий метод, применимый к поиску сходства в аминокислотной последовательности двух белков». J. Mol. Биол . 48 (3): 443–53. DOI : 10.1016 / 0022-2836 (70) 90057-4 . PMID 5420325 . 
  9. ^ Sanger F, Air GM, Barrell BG и др. (Февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Природа . 265 (5596): 687–95. Bibcode : 1977Natur.265..687S . DOI : 10.1038 / 265687a0 . PMID 870828 . S2CID 4206886 .  
  10. ^ Холли, RW; Апгар, Дж; Эверетт, Джорджия; Мэдисон, JT; Marquisee, M; Merrill, SH; Пенсвик-младший; Замир, А (май 1965 г.). «Структура рибонуклеиновой кислоты». Наука . 147 (3664): 1462–1465. Bibcode : 1965Sci ... 147.1462H . DOI : 10.1126 / science.147.3664.1462 . PMID 14263761 . S2CID 40989800 .  
  11. ^ Грибсков М; McLachlan AD; Айзенберг Д. (июль 1987 г.). «Профильный анализ: обнаружение отдаленно родственных белков» . Proc. Natl. Акад. Sci. США . 84 (13): 4355–8. Bibcode : 1987PNAS ... 84.4355G . DOI : 10.1073 / pnas.84.13.4355 . PMC 305087 . PMID 3474607 .  
  12. ^ Браун M; Hughey R; Krogh A; Миан ИС; Sjölander K; Хаусслер Д. (1993). «Использование априорных точек смеси Дирихле для получения скрытых марковских моделей для семейств белков». Proc Int Conf Intell Syst Mol Biol . 1 : 47–55. PMID 7584370 . 
  13. ^ Крог А; Коричневый М; Миан ИС; Sjölander K; Хаусслер Д. (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков» . J. Mol. Биол . 235 (5): 1501–31. DOI : 10.1006 / jmbi.1994.1104 . PMID 8107089 . S2CID 2160404 .  
  14. ^ Е X; Ван Г; Альтшул С.Ф. (декабрь 2011 г.). «Оценка оценок замещения для сравнения профиля профиля белка» . Биоинформатика . 27 (24): 3356–63. DOI : 10.1093 / биоинформатики / btr565 . PMC 3232366 . PMID 21998158 .  
  15. ^ Вули, JC; Годзик, А; Фридберг, I (26 февраля 2010 г.). «Букварь по метагеномике» . PLOS Comput Biol . 6 (2): e1000667. Bibcode : 2010PLSCB ... 6E0667W . DOI : 10.1371 / journal.pcbi.1000667 . PMC 2829047 . PMID 20195499 .  
  16. ^ Станке, М; Waack, S (19 октября 2003 г.). «Прогнозирование генов со скрытой марковской моделью и новой подмоделью интрона». Биоинформатика . 19 Дополнение 2 (2): 215–25. DOI : 10.1093 / биоинформатики / btg1080 . PMID 14534192 . 
  17. ^ Алипанахи, B; Делонг, А; Weirauch, MT; Фрей, Би Джей (август 2015 г.). «Предсказание специфичности последовательности ДНК- и РНК-связывающих белков с помощью глубокого обучения» . Nat Biotechnol . 33 (8): 831–8. DOI : 10.1038 / nbt.3300 . PMID 26213851 . 
  18. ^ Вули, JC; Годзик, А; Фридберг, I (26 февраля 2010 г.). «Букварь по метагеномике» . PLOS Comput Biol . 6 (2): e1000667. Bibcode : 2010PLSCB ... 6E0667W . DOI : 10.1371 / journal.pcbi.1000667 . PMC 2829047 . PMID 20195499 .  
  19. ^ Абэ, N; Дрор, я; Ян, Л; Слэттери, М; Чжоу, Т; Bussemaker, HJ; Rohs R, R; Манн, RS (9 апреля 2015 г.). «Деконволюция распознавания формы ДНК из последовательности» . Cell . 161 (2): 307–18. DOI : 10.1016 / j.cell.2015.02.008 . PMC 4422406 . PMID 25843630 .  
  20. ^ Moult J; Хаббард Т; Bryant SH; Фиделис К; Педерсен Дж. Т. (1997). «Критическая оценка методов предсказания структуры белков (CASP): II раунд». Белки . Дополнение 1: 2–6. DOI : 10.1002 / (SICI) 1097-0134 (1997) 1+ <2 :: AID-PROT2> 3.0.CO; 2-T . PMID 9485489 .