Матрица весов позиции

Весовой матрицы позиций (ШИМ) , также известный как матрица позиционно-удельный вес (PSWM) или позиции конкретного скоринг матрицы (PSSM) , является широко используемым представлением мотивов (шаблонов) в биологических последовательностей.

ШИМ часто представляют графически в виде логотипов последовательности .

ШИМ часто получают из набора выровненных последовательностей, которые считаются функционально связанными и стали важной частью многих программных инструментов для обнаружения вычислительных мотивов.

Задний план

ШИМ были введены американским генетиком Гэри Стормо .

Матрица весов позиций была введена американским генетиком Гэри Стормо и его коллегами в 1982 году ^[1] в качестве альтернативы консенсусным последовательностям . Консенсусные последовательности ранее использовались для представления паттернов в биологических последовательностях, но возникли трудности с предсказанием новых проявлений этих паттернов. ^[2] Первое использование PWM было в открытии сайтов РНК, которые функционируют как сайты инициации трансляции . Алгоритм персептрона был предложен польским американцем математик Andrzej эренфойхтовы для того , чтобы создать матрицу весов , которые могли бы отличить истинные сайты связывания других нефункциональных сайтов с аналогичными последовательностями. Обучение перцептрона на обоих наборах сайтов привело к созданию матрицы и порогового значения для различения этих двух наборов. ^[1] Использование матрицы для сканирования новых последовательностей, не включенных в обучающий набор, показало, что этот метод был более чувствительным и точным, чем лучшая согласованная последовательность. ^[2]

Преимущества ШИМ перед консенсусными последовательностями сделали ШИМ популярным методом представления паттернов в биологических последовательностях и важным компонентом современных алгоритмов обнаружения мотивов . ^[3]^[4]

Создание

Преобразование последовательности в матрицу вероятности позиции

ШИМ имеет одну строку для каждого символа алфавита (4 строки для нуклеотидов в последовательностях ДНК или 20 строк для аминокислот в белковых последовательностях) и по одному столбцу для каждой позиции в шаблоне. На первом этапе построения ШИМ создается базовая матрица частот положения (PFM) путем подсчета вхождений каждого нуклеотида в каждой позиции. Из PFM теперь может быть создана матрица вероятности положения (PPM) путем деления прежнего количества нуклеотидов в каждой позиции на количество последовательностей, тем самым нормализуя значения. Формально для набора X из N выровненных последовательностей длины l вычисляются элементы PPM M :

{\ displaystyle M_ {k, j} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} I (X_ {i, j} = k),}

где я ${\ displaystyle \ in}$ (1, ..., N ), j ${\ displaystyle \ in}$ (1, ..., l ), k - это набор символов в алфавите, а I (a = k) - индикаторная функция, где I (a = k) равно 1, если a = k, и 0 в противном случае.

Например, учитывая следующие последовательности ДНК:

GAGGTAAAC TCCGTAAGT CAGGTTGGA ACAGTCAGT TAGGTCATT TAGGTACTG ATGGTAACT CAGGTATAC TGTGTGAGT AAGGTAAGT

Соответствующий PFM:

{\ displaystyle M = {\ begin {matrix} A \\ C \\ G \\ T \ end {matrix}} {\ begin {bmatrix} 3 & 6 & 1 & 0 & 0 & 6 & 7 & 2 & 1 \\ 2 & 2 & 1 & 0 & 0 & 2 & 1 & 1 & 1 & 2 \\ 1 & 1 & 7 & 10 & 0 & 0 & 1 & 1 & 5 & 1 & 1 & amp; }

Следовательно, результирующий PPM: ^[5]

{\ displaystyle M = {\ begin {matrix} A \\ C \ G \\ T \ end {matrix}} {\ begin {bmatrix} 0,3 и 0,6 и 0,1 и 0,0 и 0,0 и 0,6 и 0,7 и 0,2 и 0. 1 \\ 0,2 & 0,2 & 0,1 & 0,0 & 0,0 & 0,2 & 0,1 & 0,1 & 0,2 \\ 0,1 & 0,1 & 0,7 & 1,0 & 0,0 & 0,1 & 0,1 & 0,5 & 0,1 \\ 0,4 & 0,1 & 0,1 & 0. 0 & 1.0 & 0.1 & 0.1 & 0.2 & 0.6 \ end {bmatrix}}.}

И PPM, и PWM предполагают статистическую независимость между позициями в шаблоне, поскольку вероятности для каждой позиции рассчитываются независимо от других позиций. Из приведенного выше определения следует, что сумма значений для конкретной позиции (то есть суммирование по всем символам) равна 1. Таким образом, каждый столбец можно рассматривать как независимое полиномиальное распределение . Это упрощает вычисление вероятности последовательности для данного PPM путем умножения соответствующих вероятностей в каждой позиции. Например, вероятность последовательности S = GAGGTAAAC с учетом приведенного выше PPM M может быть вычислена:

{\ Displaystyle p (S \ vert M) = 0,1 \ раз 0,6 \ 0,7 \ раз 1,0 \ раз 1,0 \ раз 0,6 \ раз 0,7 \ раз 0,2 \ раз 0,2 = 0,0007056.}

Псевдосчет (или оценки Лапласа ) часто применяется при вычислении PPM, если он основан на небольшом наборе данных, чтобы избежать элементов матрицы, имеющих значение 0. ^[6] Это эквивалентно умножению каждого столбца PPM на распределение Дирихле и позволяет вероятность того, что будут вычислены новые последовательности (то есть последовательности, которые не были частью исходного набора данных). В приведенном выше примере без псевдосчетов любая последовательность, у которой не было G в 4-й позиции или T в 5-й позиции, имела бы вероятность 0, независимо от других позиций.

Преобразование матрицы вероятности позиции в матрицу весов позиции

Чаще всего элементы в ШИМ рассчитываются как логарифмические вероятности. То есть элементы PPM преобразуются с использованием фоновой модели. ${\ displaystyle b}$ чтобы:

{\ displaystyle M_ {k, j} = \ mathrm {log_ {2}} \; (M_ {k, j} / b_ {k}).}

описывает, как элемент в ШИМ (слева) , ${\ displaystyle M_ {k, j}}$ , можно рассчитать. Простейшая фоновая модель предполагает, что каждая буква встречается в наборе данных одинаково часто. То есть ценность ${\ displaystyle b_ {k} = 1 / \ vert k \ vert}$ для всех символов в алфавите (0,25 для нуклеотидов и 0,05 для аминокислот). Применение этого преобразования к PPM M сверху (без добавления псевдосчетов) дает:

{\ Displaystyle M = {\ begin {matrix} A \\ C \\ G \\ T \ end {matrix}} {\ begin {bmatrix} 0,26 & 1,26 & -1,32 & - \ infty & - \ infty & 1,26 & 1 .49 & -0.32 & -1.32 \\ - 0.32 & -0.32 & -1.32 & - \ infty & - \ infty & -0.32 & -1.32 & -1.32 & -0.32 \\ - 1.32 & -1.32 & 1.49 & 2.0 & - \ infty & -1.32 & -1.32 & 1.0 & -1.32 \\ 0.68 & -1.32 & -1.32 & - \ infty & 2.0 & -1.32 & -1.32 & -0.32 & 1.26 \ end {bmatrix}}.}

В ${\ displaystyle - \ infty}$ Записи в матрице делает ясно преимущество добавления pseudocounts, особенно при использовании небольших наборов данных для построения М . Фоновая модель не обязательно должна иметь равные значения для каждого символа: например, при изучении организмов с высоким содержанием GC , значения C и G могут быть увеличены с соответствующим уменьшением значений A и T.

Когда элементы PWM вычисляются с использованием логарифма правдоподобия, оценка последовательности может быть вычислена путем добавления (а не умножения) соответствующих значений в каждой позиции в PWM. Оценка последовательности показывает, насколько последовательность отличается от случайной последовательности. Оценка равна 0, если последовательность имеет одинаковую вероятность быть функциональным сайтом и быть случайным сайтом. Оценка больше 0, если это скорее функциональный сайт, чем случайный, и меньше 0, если это скорее случайный сайт, чем функциональный. ^[5] Оценка последовательности также может интерпретироваться в физических рамках как энергия связи для этой последовательности.

Информационное содержание

Содержание информации (ВЗ) ШИМ иногда представляет интерес, так как это говорит о том , как различные данность ШИМ от равномерного распределения .

Собственная информация наблюдения конкретного символа в определенной позиции мотива:

{\ displaystyle - \ log (p_ {i, j})}

Ожидаемая (средняя) самоинформация конкретного элемента в ШИМ будет:

{\ Displaystyle -p_ {я, j} \ cdot \ log (p_ {я, j})}

Наконец, ИС ШИМ представляет собой сумму ожидаемой самоинформации каждого элемента:

{\ displaystyle \ textstyle - \ sum _ {i, j} p_ {i, j} \ cdot \ log (p_ {i, j})}

Часто бывает более полезно рассчитывать информационное содержание с частотами фоновых букв в последовательностях, которые вы изучаете, чем предполагать равные вероятности каждой буквы (например, GC-содержание ДНК термофильных бактерий колеблется от 65,3 до 70,8, ^{[7 ],} таким образом, мотив ATAT будет содержать гораздо больше информации, чем мотив CCGG). Таким образом, уравнение информационного содержания становится

{\ displaystyle \ textstyle - \ sum _ {i, j} p_ {i, j} \ cdot \ log (p_ {i, j} / p_ {j})}

где ${\ displaystyle p_ {j}}$ частота фона для письма ${\ displaystyle j}$ . Это соответствует расходимости Кульбака – Лейблера или относительной энтропии. Однако было показано, что при использовании PSSM для поиска геномных последовательностей (см. Ниже) эта единообразная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-меров в реальных геномах, что приводит к к значительно большему количеству ложных срабатываний. ^[8]

Использует

Существуют различные алгоритмы последовательного поиска совпадений ШИМ. Одним из примеров является алгоритм MATCH ^[9] , реализованный в ModuleMaster. ^[10] Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидных и аминокислотных PWM / PSSM реализованы в программном обеспечении Possumsearch. ^[11]

Внешние ссылки

3PFDB - база данных лучших репрезентативных профилей PSSM (BRP) семейств белков, созданных с использованием нового подхода к интеллектуальному анализу данных.
UGENE - разработка матриц PSS, интегрированный интерфейс с базами данных JASPAR, UniPROBE и SITECON.

[Stormo1982-1] а ^б Стормо, Гэри Д .; Schneider, Thomas D .; Золото, Ларри; Эренфойхт, Анджей (1982). «Использование алгоритма« Перцептрон »для различения сайтов инициации трансляции в E. coli » . Исследования нуклеиновых кислот . 10 (9): 2997–3011. DOI : 10.1093 / NAR / 10.9.2997 . PMC 320670 . PMID 7048259 .

[Stormo1990-2] а б Стормо, Г. Д. (1 января 2000 г.). «Сайты связывания ДНК: представление и открытие» . Биоинформатика . 16 (1): 16–23. DOI : 10.1093 / биоинформатики / 16.1.16 . PMID 10812473 .

[3] Синха, С. (27 июля 2006 г.). «При подсчете совпадений матрицы весов позиций в последовательности с применением к поиску отличительных мотивов» . Биоинформатика . 22 (14): e454 – e463. DOI : 10.1093 / биоинформатики / btl227 . PMID 16873507 .

[4] Ся, Сюйхуа (2012). «Матрица весов положения, выборка Гиббса и связанные тесты значимости в характеристике и прогнозировании мотивов» . Scientifica . 2012 : 1–15. DOI : 10.6064 / 2012/917540 . PMC 3820676 . PMID 24278755 .

[guigo-pssms-5] а б Гиго, Родерик. «Введение в матрицы оценки позиций» . bioinformatica.upf.edu . Проверено 12 ноября 2013 года .

[6] Nishida, K .; Фрит, MC; Накай, К. (23 декабря 2008 г.). «Псевдосчет сайтов связывания факторов транскрипции» . Исследования нуклеиновых кислот . 37 (3): 939–944. DOI : 10.1093 / NAR / gkn1019 . PMC 2647310 . PMID 19106141 .

[Aleksandrushkina1978-7] Александрушкина Н.И., Егорова Л.А. (1978). «Нуклеотидный состав ДНК термофильных бактерий рода Thermus». Микробиология . 47 (2): 250–2. PMID 661633 .

[Erill2009-8] Эрилл I, О'Нил MC (2009). «Пересмотр основанных на теории информации методов идентификации ДНК-связывающих сайтов» . BMC Bioinformatics . 10 : 57. DOI : 10,1186 / 1471-2105-10-57 . PMC 2680408 . PMID 19210776 .

[Kel2003-9] Кел А.Е. и др. (2003). «MATCHTM: инструмент для поиска сайтов связывания факторов транскрипции в последовательностях ДНК» . Исследования нуклеиновых кислот . 31 (13): 3576–3579. DOI : 10.1093 / NAR / gkg585 . PMC 169193 . PMID 12824369 .

[Wrzodek2010-10] Wrzodek, Clemens; Шредер, Адриан; Dräger, Андреас; Ванке, Дирк; Berendzen, Kenneth W .; Кронфельд, Марсель; Хартер, Клаус; Зелл, Андреас (9 октября 2009 г.). «ModuleMaster: новый инструмент для расшифровки сетей регуляции транскрипции». Биосистемы . 99 (1): 79–81. DOI : 10.1016 / j.biosystems.2009.09.005 . ISSN 0303-2647 . PMID 19819296 .

[Beckstette2006-11] Beckstette, M .; и другие. (2006). «Алгоритмы и программное обеспечение на основе быстрых индексов для сопоставления матриц оценок для конкретных позиций» . BMC Bioinformatics . 7 : 389. DOI : 10,1186 / 1471-2105-7-389 . PMC 1635428 . PMID 16930469 .

[1]