Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

ШИМ часто представляют графически в виде логотипов последовательности .

Весовой матрицы позиций (ШИМ) , также известный как матрица позиционно-удельный вес (PSWM) или позиции конкретного скоринг матрицы (PSSM) , является широко используемым представлением мотивов (шаблонов) в биологических последовательностей.

ШИМ часто получают из набора выровненных последовательностей, которые считаются функционально связанными и стали важной частью многих программных инструментов для обнаружения вычислительных мотивов.

Фон [ править ]

ШИМ были введены американским генетиком Гэри Стормо .

Матрица весов позиций была введена американским генетиком Гэри Стормо и его коллегами в 1982 году [1] в качестве альтернативы консенсусным последовательностям . Консенсусные последовательности ранее использовались для представления паттернов в биологических последовательностях, но возникли трудности с предсказанием новых проявлений этих паттернов. [2] Первое использование PWM было в открытии сайтов РНК, которые функционируют как сайты инициации трансляции . Алгоритм персептрона был предложен польский американский математик Анджей эренфойхтова для того , чтобы создать матрицувесов, которые могли бы отличить истинные сайты связывания от других нефункциональных сайтов с аналогичными последовательностями. Обучение перцептрона на обоих наборах сайтов привело к созданию матрицы и порогового значения для различения этих двух наборов. [1] Использование матрицы для сканирования новых последовательностей, не включенных в обучающий набор, показало, что этот метод был более чувствительным и точным, чем лучшая согласованная последовательность. [2]

Преимущества ШИМ перед консенсусными последовательностями сделали ШИМ популярным методом представления паттернов в биологических последовательностях и важным компонентом современных алгоритмов обнаружения мотивов . [3] [4]

Создание [ править ]

Преобразование последовательности в матрицу вероятности положения [ править ]

ШИМ имеет одну строку для каждого символа алфавита (4 строки для нуклеотидов в последовательностях ДНК или 20 строк для аминокислот в белковых последовательностях) и по одному столбцу для каждой позиции в шаблоне. На первом этапе построения ШИМ создается базовая матрица частот положения (PFM) путем подсчета вхождений каждого нуклеотида в каждой позиции. Из PFM теперь может быть создана матрица вероятности положения (PPM) путем деления прежнего количества нуклеотидов в каждой позиции на количество последовательностей, тем самым нормализуя значения. Формально для набора X из N выровненных последовательностей длины l вычисляются элементы PPM M :

где i (1, ..., N ), j (1, ..., l ), k - набор символов в алфавите, а I (a = k) - индикаторная функция, где I (a = k) равно 1, если a = k, и 0 в противном случае.

Например, учитывая следующие последовательности ДНК:

Соответствующий PFM:

Следовательно, результирующий PPM: [5]

И PPM, и PWM предполагают статистическую независимость между позициями в шаблоне, поскольку вероятности для каждой позиции рассчитываются независимо от других позиций. Из приведенного выше определения следует, что сумма значений для конкретной позиции (то есть суммирование по всем символам) равна 1. Таким образом, каждый столбец можно рассматривать как независимое полиномиальное распределение . Это упрощает вычисление вероятности последовательности для данного PPM путем умножения соответствующих вероятностей в каждой позиции. Например, вероятность последовательности S  =  GAGGTAAAC с учетом приведенного выше PPM M может быть вычислена:

Псевдосчет (или оценки Лапласа ) часто применяется при вычислении PPM, если он основан на небольшом наборе данных, чтобы избежать элементов матрицы, имеющих значение 0. [6] Это эквивалентно умножению каждого столбца PPM на распределение Дирихле и позволяет вероятность того, что будут вычислены новые последовательности (то есть последовательности, которые не были частью исходного набора данных). В приведенном выше примере без псевдосчетов любая последовательность, у которой не было G в 4-й позиции или T в 5-й позиции, имела бы вероятность 0, независимо от других позиций.

Преобразование матрицы вероятности положения в матрицу веса положения [ править ]

Чаще всего элементы в ШИМ рассчитываются как логарифмические вероятности. То есть элементы PPM преобразуются с использованием фоновой модели таким образом, чтобы:

описывает , как элемент в ШИМ (слева) , может быть вычислена. Простейшая фоновая модель предполагает, что каждая буква встречается в наборе данных одинаково часто. То есть значение для всех символов в алфавите (0,25 для нуклеотидов и 0,05 для аминокислот). Применение этого преобразования к PPM M сверху (без добавления псевдосчетов) дает:

Эти элементы в матрице делает ясно преимущество добавления pseudocounts, особенно при использовании небольших наборов данных для построения М . Фоновая модель не обязательно должна иметь равные значения для каждого символа: например, при изучении организмов с высоким содержанием GC , значения C и G могут быть увеличены с соответствующим уменьшением значений A и T.

Когда элементы PWM вычисляются с использованием логарифма правдоподобия, оценка последовательности может быть вычислена путем добавления (а не умножения) соответствующих значений в каждой позиции в PWM. Оценка последовательности показывает, насколько последовательность отличается от случайной последовательности. Оценка равна 0, если последовательность имеет одинаковую вероятность быть функциональным сайтом и быть случайным сайтом. Оценка больше 0, если это скорее функциональный сайт, чем случайный, и меньше 0, если это скорее случайный сайт, чем функциональный. [5] Оценка последовательности также может интерпретироваться в физических рамках как энергия связи для этой последовательности.

Информационное содержание [ править ]

Содержание информации (ВЗ) ШИМ иногда представляет интерес, так как это говорит о том , как различные данность ШИМ от равномерного распределения .

Собственная информация наблюдения конкретного символа в определенной позиции мотива:

Ожидаемая (средняя) самоинформация конкретного элемента в ШИМ будет:

Наконец, ИС ШИМ представляет собой сумму ожидаемой самоинформации каждого элемента:

Часто бывает более полезно рассчитать информационное содержание с частотами фоновых букв в последовательностях, которые вы изучаете, чем предполагать равные вероятности каждой буквы (например, GC-содержание ДНК термофильных бактерий колеблется от 65,3 до 70,8, [7 ], таким образом, мотив ATAT будет содержать гораздо больше информации, чем мотив CCGG). Таким образом, уравнение информационного содержания становится

где - частота фона для буквы . Это соответствует расходимости Кульбака – Лейблера или относительной энтропии. Однако было показано, что при использовании PSSM для поиска геномных последовательностей (см. Ниже) эта единообразная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-меров в реальных геномах, что приводит к к значительно большему количеству ложных срабатываний. [8]

Использует [ редактировать ]

Существуют различные алгоритмы последовательного поиска совпадений ШИМ. Одним из примеров является алгоритм MATCH [9] , реализованный в ModuleMaster. [10] Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидных и аминокислотных PWM / PSSM реализованы в программном обеспечении Possumsearch. [11]

Ссылки [ править ]

  1. ^ а б Стормо, Гэри Д .; Schneider, Thomas D .; Золото, Ларри; Эренфойхт, Анджей (1982). «Использование алгоритма« Перцептрон »для различения сайтов инициации трансляции в E. coli » . Исследования нуклеиновых кислот . 10 (9): 2997–3011. DOI : 10.1093 / NAR / 10.9.2997 . PMC  320670 . PMID  7048259 .
  2. ^ a b Стормо, GD (1 января 2000 г.). «Сайты связывания ДНК: представление и открытие» . Биоинформатика . 16 (1): 16–23. DOI : 10.1093 / биоинформатики / 16.1.16 . PMID 10812473 . 
  3. Перейти ↑ Sinha, S. (27 июля 2006 г.). «При подсчете совпадений матрицы весов позиций в последовательности с применением к поиску отличительных мотивов» . Биоинформатика . 22 (14): e454 – e463. DOI : 10.1093 / биоинформатики / btl227 . PMID 16873507 . 
  4. ^ Ся, Сюйхуа (2012). «Матрица весов положения, выборка Гиббса и связанные тесты значимости в характеристике и прогнозировании мотивов» . Scientifica . 2012 : 1–15. DOI : 10.6064 / 2012/917540 . PMC 3820676 . PMID 24278755 .  
  5. ^ a b Гиго, Родерик. «Введение в матрицы оценки позиций» . bioinformatica.upf.edu . Проверено 12 ноября 2013 года .
  6. ^ Nishida, K .; Фрит, MC; Накай, К. (23 декабря 2008 г.). «Псевдосчет сайтов связывания факторов транскрипции» . Исследования нуклеиновых кислот . 37 (3): 939–944. DOI : 10.1093 / NAR / gkn1019 . PMC 2647310 . PMID 19106141 .  
  7. Александрушкина Н.И., Егорова Л.А. (1978). «Нуклеотидный состав ДНК термофильных бактерий рода Thermus». Микробиология . 47 (2): 250–2. PMID 661633 . 
  8. ^ Erill I, O'Neill MC (2009). «Пересмотр основанных на теории информации методов идентификации ДНК-связывающих сайтов» . BMC Bioinformatics . 10 : 57. DOI : 10,1186 / 1471-2105-10-57 . PMC 2680408 . PMID 19210776 .  
  9. ^ Kel AE и др. (2003). «MATCHTM: инструмент для поиска сайтов связывания факторов транскрипции в последовательностях ДНК» . Исследования нуклеиновых кислот . 31 (13): 3576–3579. DOI : 10.1093 / NAR / gkg585 . PMC 169193 . PMID 12824369 .  
  10. ^ Wrzodek, Клеменс; Шредер, Адриан; Dräger, Андреас; Ванке, Дирк; Berendzen, Kenneth W .; Кронфельд, Марсель; Хартер, Клаус; Зелл, Андреас (9 октября 2009 г.). «ModuleMaster: новый инструмент для расшифровки сетей регуляции транскрипции». Биосистемы . 99 (1): 79–81. DOI : 10.1016 / j.biosystems.2009.09.005 . ISSN 0303-2647 . PMID 19819296 .  
  11. ^ Beckstette, M .; и другие. (2006). «Алгоритмы и программное обеспечение на основе быстрых индексов для сопоставления матриц оценок для конкретных позиций» . BMC Bioinformatics . 7 : 389. DOI : 10,1186 / 1471-2105-7-389 . PMC 1635428 . PMID 16930469 .  

Внешние ссылки [ править ]

  • 3PFDB - база данных лучших репрезентативных профилей PSSM (BRP) семейств белков, созданных с использованием нового подхода к интеллектуальному анализу данных.
  • UGENE - разработка матриц PSS, интегрированный интерфейс с базами данных JASPAR, UniPROBE и SITECON.