Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Матрица BLOSUM62

В биоинформатики , то BLOSUM ( BLO CKS SU bstitution М Atrix) матрица представляет собой матрицу подстановки используется для выравнивания последовательностей из белков . Матрицы BLOSUM используются для оценки выравнивания между эволюционно расходящимися белковыми последовательностями. Они основаны на локальных раскладах. Матрицы BLOSUM были впервые представлены в статье Стивена Хеникоффа и Джорджи Хеникофф. [1] Они просканировали базу данных BLOCKS на предмет очень консервативных регионов.белков семейств (которые не имеют пробелов в выравнивании последовательностей), а затем подсчитали относительные частоты аминокислот и их вероятности замещения. Затем они рассчитали логарифмический коэффициент для каждой из 210 возможных пар замен 20 стандартных аминокислот. Все матрицы BLOSUM основаны на наблюдаемых сопоставлениях; они не экстраполируются из сравнений близкородственных белков, таких как матрицы PAM .

Биологический фон [ править ]

Генетические инструкции каждой реплицирующейся клетки живого организма содержатся в его ДНК. [2] На протяжении всей жизни клетки эта информация транскрибируется и реплицируется клеточными механизмами для производства белков или для предоставления инструкций дочерним клеткам во время деления клеток , и существует вероятность того, что ДНК может быть изменена во время этих процессов. [2] [3] Это известно как мутация . На молекулярном уровне существуют регуляторные системы, которые корректируют большинство - но не все - этих изменений в ДНК до того, как она будет реплицирована. [3] [4]

Функциональность белка сильно зависит от его структуры. [5] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, или мутация может даже изменить функцию, которую выполняет белок. [3] Подобные изменения могут серьезно повлиять на важную функцию клетки, потенциально вызывая смерть клетки - а в крайних случаях и всего организма. [6]И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приведет к значительному физическому ущербу для потомства, существует вероятность того, что эта мутация сохранится в популяции. Также существует возможность того, что изменение функции станет выгодным.

20 аминокислот, транслируемых генетическим кодом, сильно различаются по физическим и химическим свойствам их боковых цепей. [5] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами. [5] Замена аминокислоты другой из той же категории с большей вероятностью окажет меньшее влияние на структуру и функцию белка, чем замена аминокислотой из другой категории.

Выравнивание последовательностей - фундаментальный метод исследования современной биологии. Наиболее распространенное выравнивание последовательностей белка - это поиск сходства между различными последовательностями, чтобы сделать вывод о функции или установить эволюционные отношения. Это помогает исследователям лучше понять происхождение и функцию генов благодаря природе гомологии и сохранности . Матрицы замещения используются в алгоритмах для вычисления сходства различных последовательностей белков; однако полезность Dayhoff PAM Matrix со временем снизилась из-за необходимости последовательностей с сходством более 85%. Чтобы восполнить этот пробел, Хеникоффи Хеникофф представили матрицу BLOSUM (BLOcks SUbstitution Matrix), которая привела к заметным улучшениям в выравнивании и поиске с использованием запросов из каждой из групп связанных белков. [1]

Терминология [ править ]

BLOSUM: Блоки Замена матрицы, А матрица подстановки используется для выравнивания последовательностей из белков .

Показатели оценки (статистические по сравнению с биологическими): оценивая выравнивание последовательностей, хотелось бы знать, насколько это значимо. Для этого требуется оценочная матрица или таблица значений, которая описывает вероятность появления пары биологически значимых аминокислот или нуклеотидных остатков в выравнивании. В баллах для каждой позиции получаются частоты замен в блоках локальных выравниваний белковых последовательностей. [7]

Существует несколько наборов матриц BLOSUM с использованием различных баз данных выравнивания, названных номерами. Матрицы BLOSUM с большими числами предназначены для сравнения близкородственных последовательностей, а матрицы с низкими числами предназначены для сравнения отдаленных связанных последовательностей. Например, BLOSUM80 используется для близкородственных выравниваний, а BLOSUM45 используется для более отдаленно связанных выравниваний. Матрицы были созданы путем объединения (кластеризации) всех последовательностей, которые были более похожими, чем заданный процент, в одну единственную последовательность, а затем только сравнения этих последовательностей (которые были более различающимися, чем заданное процентное значение); таким образом уменьшая вклад близкородственных последовательностей. Используемый процент был добавлен к имени, давая, например, BLOSUM80, где последовательности, которые были более чем на 80% идентичны, были сгруппированы.

BLOSUM r: матрица, построенная из блоков с менее чем r% сходства - например, BLOSUM62 - это матрица, построенная с использованием последовательностей с менее чем 62% сходства (последовательности с идентичностью ≥ 62% были кластеризованы) - Примечание: BLOSUM 62 является матрицей по умолчанию для протеина BLAST. Эксперименты показали, что матрица BLOSUM-62 является одной из лучших для обнаружения самых слабых сходств белков. [1]

Построение матриц BLOSUM [ править ]

Матрицы BLOSUM получают с использованием блоков схожих аминокислотных последовательностей в качестве данных с последующим применением статистических методов к данным для получения оценок сходства. Этапы статистических методов: [8]

Удаление последовательностей [ править ]

Удалите последовательности, которые идентичны более чем на r%. Есть два способа устранить последовательности. Это можно сделать либо путем удаления последовательностей из блока, либо просто путем поиска похожих последовательностей и замены их новыми последовательностями, которые могут представлять кластер. Удаление выполняется для удаления белковых последовательностей, которые более похожи, чем указанный порог.

Расчет частоты и вероятности [ править ]

База данных, в которой хранятся выравнивания последовательностей наиболее консервативных областей семейств белков. Эти выравнивания используются для получения матриц BLOSUM. Используются только последовательности с процентом идентичности ниже порогового. Используя блок, подсчитывая пары аминокислот в каждом столбце множественного выравнивания.

Отношение нечетных чисел [ править ]

Он дает отношение встречаемости каждой комбинации аминокислот в наблюдаемых данных к ожидаемому значению встречаемости пары. Он округляется и используется в матрице замещения.

В котором есть возможность наблюдаемая и возможность ожидаемая.

Матрицы BLOSUM [ править ]

Шансы на родство рассчитываются из логарифмического отношения нечетных, которые затем округляются, чтобы получить матрицы замены BLOSUM.

Оценка матриц BLOSUM [ править ]

Матрица оценок или таблица значений требуются для оценки значимости выравнивания последовательностей, например, для описания вероятности появления в выравнивании пары биологически значимых аминокислот или нуклеотидных остатков. Обычно при сравнении двух нуклеотидных последовательностей оценивается только то, являются ли два основания одинаковыми в одном положении. Всем совпадениям и несоответствиям соответственно присваивается одинаковая оценка (обычно +1 или +5 для совпадений и -1 или -4 для несоответствий). [9]Но с белками все иначе. Матрицы замен для аминокислот более сложны и неявно учитывают все, что может повлиять на частоту, с которой одна аминокислота заменяется другой. Цель состоит в том, чтобы обеспечить относительно высокий штраф за выравнивание двух остатков вместе, если они имеют низкую вероятность быть гомологичными (правильно выровнены путем эволюционного происхождения). Две основные силы отталкивают скорость аминокислотных замен от единообразия: замены происходят с разной частотой и функционально менее переносимы, чем другие. Таким образом, замены отбираются против. [7]

Обычно используемые матрицы замещения включают в себя матрицы замещения блоков (BLOSUM) [1] и точечных мутаций (PAM) [10] [11] . Оба основаны на взятии наборов выравниваний с высокой степенью достоверности многих гомологичных белков и оценке частот всех замен, но они рассчитываются с использованием разных методов. [7]

Оценки в BLOSUM представляют собой оценки логарифма шансов, которые измеряют при выравнивании логарифм отношения вероятности появления двух аминокислот с биологическим смыслом и вероятности того, что одни и те же аминокислоты появятся случайно. Матрицы основаны на минимальной процентной идентичности выровненной белковой последовательности, используемой при их вычислении. [12] Каждой возможной идентичности или замене присваивается оценка, основанная на наблюдаемой частоте выравнивания родственных белков. [13] Положительная оценка дается более вероятным заменам, а отрицательная оценка - менее вероятным заменам.

Для вычисления матрицы BLOSUM используется следующее уравнение:

Здесь, есть вероятность из двух аминокислот , и заменяя друг друга в гомологичной последовательности, а также и фоновые вероятности нахождения аминокислоты и в любой белковой последовательности. Фактор - это коэффициент масштабирования, установленный таким образом, чтобы матрица содержала легко вычисляемые целочисленные значения.

Пример - BLOSUM62 [ править ]

BLOSUM80: больше родственных белков

BLOSUM62: среднечастотный

BLOSUM45: отдаленно родственные белки

Статья в Nature Biotechnology [14] показала, что BLOSUM62, используемый в течение многих лет в качестве стандарта, не совсем точен в соответствии с алгоритмом, описанным Хеникофф и Хеникофф. [1] Удивительно, но неправильно рассчитанный BLOSUM62 повышает эффективность поиска. [14]

Матрица BLOSUM62 с аминокислотами в таблице, сгруппированными в соответствии с химическим составом боковой цепи, как в (а). Каждое значение в матрице вычисляется путем деления частоты встречаемости пары аминокислот в базе данных BLOCKS, сгруппированных на уровне 62%, деленной на вероятность того, что те же две аминокислоты могут совпадать случайно. Затем отношение преобразуется в логарифм и выражается в виде логарифма шансов, как для PAM. Матрицы BLOSUM обычно масштабируются в полубитовых единицах. Нулевой балл указывает на то, что частота, с которой данные две аминокислоты были найдены выровненными в базе данных, была такой, как ожидалось, случайно, в то время как положительный балл указывает на то, что сопоставление было обнаружено чаще, чем случайно, а отрицательный балл указывает на то, что сопоставление находили реже, чем случайно.

Некоторые применения в биоинформатике [ править ]

Приложения для исследований [ править ]

Показатели BLOSUM использовались для прогнозирования и понимания вариантов поверхностных генов среди носителей вируса гепатита В [15] и Т-клеточных эпитопов. [16]

Варианты поверхностных генов среди носителей вируса гепатита B [ править ]

Последовательности ДНК HBsAg были получены от 180 пациентов, из которых 51 был хроническим носителем HBV и 129 пациентов с новым диагнозом, и сравнивались с консенсусными последовательностями, построенными из 168 последовательностей HBV, импортированных из GenBank. Обзор литературы и баллы BLOSUM использовались для определения потенциально измененной антигенности. [15]

Надежное предсказание эпитопов Т-клеток [ править ]

Было разработано новое входное представление, состоящее из комбинации разреженного кодирования, кодирования Blosum и входных данных, полученных из скрытых марковских моделей. этот метод позволяет прогнозировать эпитопы Т-клеток генома вируса гепатита С и обсуждать возможные применения метода прогнозирования для управления процессом разработки рациональной вакцины. [16]

Использовать в BLAST [ править ]

Матрицы BLOSUM также используются в качестве оценочной матрицы при сравнении последовательностей ДНК или белковых последовательностей для оценки качества выравнивания. Эта форма системы подсчета очков используется в широком спектре программного обеспечения для выравнивания, включая BLAST . [17]

Сравнение PAM и BLOSUM [ править ]

В дополнение к матрицам BLOSUM может использоваться ранее разработанная оценочная матрица. Это известно как PAM . Оба результата дают одинаковый результат подсчета очков, но используют разные методологии. BLOSUM смотрит непосредственно на мутации в мотивах связанных последовательностей, в то время как PAM экстраполирует эволюционную информацию на основе тесно связанных последовательностей. [1]

Поскольку и PAM, и BLOSUM - это разные методы для отображения одной и той же информации о подсчете, их можно сравнивать, но из-за совершенно разных методов получения этой оценки PAM100 не совпадает с BLOSUM100. [18]

Отношения между PAM и BLOSUM [ править ]
Различия между PAM и BLOSUM [ править ]

См. Также [ править ]

  • Выравнивание последовательности
  • Точка приняла мутацию

Ссылки [ править ]

  1. ^ a b c d e f Henikoff, S .; Хеникофф, JG (1992). «Матрицы аминокислотного замещения из белковых блоков» . PNAS . 89 (22): 10915–10919. Bibcode : 1992PNAS ... 8910915H . DOI : 10.1073 / pnas.89.22.10915 . PMC  50453 . PMID  1438297 .
  2. ^ a b Кэмпбелл Н.А.; Рис JB; Мейерс Н; Урри Л.А.; Cain ML; Вассерман С.А.; Минорский ПВ; Джексон РБ (2009). «Молекулярные основы наследования». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 307–325. ISBN 9781442502215.
  3. ^ a b c Кэмпбелл Н.А.; Рис JB; Мейерс Н; Урри Л.А.; Cain ML; Вассерман С.А.; Минорский ПВ; Джексон РБ (2009). «От гена к белку». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 327–350. ISBN 9781442502215.
  4. ^ Pal JK, Ghaskadbi SS (2009). «Повреждение, восстановление и рекомбинация ДНК». Основы молекулярной биологии (1-е изд.). Издательство Оксфордского университета. С.  187–203 . ISBN 9780195697810.
  5. ^ a b c Кэмпбелл Н.А.; Рис JB; Мейерс Н; Урри Л.А.; Cain ML; Вассерман С.А.; Минорский ПВ; Джексон РБ (2009). «Строение и функции крупных биологических молекул». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 68–89. ISBN 9781442502215.
  6. ^ Лобо, Ингрид (2008). «Менделирующие соотношения и летальные гены» . Природа . Проверено 19 октября 2013 года . CS1 maint: discouraged parameter (link)
  7. ^ a b c pertsemlidis A .; Fondon JW.3rd (сентябрь 2001 г.). «Провести BLAST с биоинформатикой (и избежать BLASTphemy)» . Геномная биология . 2 (10): reviews2002.1–2002.10. DOI : 10.1186 / GB-2001-2-10-reviews2002 . PMC 138974 . PMID 11597340 .  
  8. ^ «МАТРИЦЫ ЦВЕТОВ: Введение в БИОИНФОРМАТИКУ» (PDF) . UNIVERSITI TEKNOLOGI MALAYSIA . 2009 . Проверено 9 сентября 2014 года . CS1 maint: discouraged parameter (link)[ постоянная мертвая ссылка ]
  9. ^ Мурали Сиварамакришнан; Огнен Перишич; Шаши Ранджан. «CS № 594 - Группа 13 (Инструменты и программное обеспечение)» (PDF) . Иллинойский университет в Чикаго - МСЖД . Проверено 9 сентября 2014 года . CS1 maint: discouraged parameter (link)
  10. ^ Маргарет О., Dayhoff (1978). «22». Атлас последовательности и структуры белков . 5 . Вашингтон, округ Колумбия: Национальный фонд биомедицинских исследований. С. 345–352.
  11. ^ Состояния DJ .; Gish W .; Altschul SF. (1991). «Повышенная чувствительность поиска в базе данных нуклеиновых кислот с использованием оценочных матриц для конкретных приложений». Методы: дополнение к методам энзимологии . 3 : 66–70. CiteSeerX 10.1.1.114.8183 . DOI : 10.1016 / s1046-2023 (05) 80165-3 . ISSN 1046-2023 .  
  12. ^ Альберт Ю. Zomaya (2006). Справочник по естественным и инновационным вычислениям . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-0-387-40532-2.стр. 673
  13. ^ NIH "Система подсчета очков"
  14. ^ а б Марк П. Стычинский; Кайл Л. Дженсен; Исидор Ригутсос; Грегори Стефанопулос (2008). «Просчеты BLOSUM62 повышают эффективность поиска». Nat. Biotechnol . 26 (3): 274–275. DOI : 10.1038 / nbt0308-274 . PMID 18327232 . S2CID 205266180 .  
  15. ^ a b Роке-Афонсу AM, Фери MP, Ly TD (2007). «Вирусные и клинические факторы, связанные с вариантами поверхностных генов среди носителей вируса гепатита В». Антивир Тер . 12 (8): 1255–1263. PMID 18240865 . 
  16. ^ а б Нильсен М., Лундегаард С., Уорнинг П. и др. (2003). «Надежное предсказание эпитопов Т-клеток с использованием нейронных сетей с новыми представлениями последовательностей» (PDF) . Белковая наука . 12 (5): 1007–1017. DOI : 10.1110 / ps.0239403 . PMC 2323871 . PMID 12717023 .   
  17. ^ «Статистика оценок сходства последовательностей» . Национальный центр биотехнологической информации . Проверено 20 октября 2013 года . CS1 maint: discouraged parameter (link)
  18. ^ Сауд Omama (2009). «Матрицы замещения PAM и BLOSUM» . Бирек . Архивировано из оригинала 9 марта 2013 года . Проверено 20 октября 2013 года . CS1 maint: discouraged parameter (link)
  19. ^ «Искусство выравнивания последовательностей белков, Часть 1 Матрицы» . Dai hoc Can Tho - Университет Кантхо . Архивировано из оригинального 11 сентября 2014 года . Проверено 7 сентября 2014 года . CS1 maint: discouraged parameter (link)

Внешние ссылки [ править ]

  • Шон Р. Эдди (2004). «Откуда взялась матрица оценок согласования BLOSUM62?». Природа Биотехнологии . 22 (8): 1035–6. DOI : 10.1038 / nbt0804-1035 . PMID  15286655 . S2CID  205269887 .
  • БЛОКИРУЕТ WWW сервер
  • Системы подсчета очков для BLAST в NCBI
  • Файлы данных BLOSUM на FTP-сервере NCBI .
  • Интерактивная визуализация сети BLOSUM