Probalign - это инструмент для выравнивания последовательностей, который вычисляет выравнивание с максимальной ожидаемой точностью с использованием апостериорных вероятностей статистической суммы. [1] Вероятности пары оснований оцениваются с использованием оценки, аналогичной распределению Больцмана . Статистическая сумма вычисляется с использованием подхода динамического программирования .
Ниже описан алгоритм, используемый probalign для определения вероятностей пары оснований. [2]
Оценка соответствия [ править ]
Чтобы оценить выравнивание двух последовательностей, необходимы две вещи:
- функция подобия (например, PAM , BLOSUM , ...)
- Штраф за аффинный пробел:
Оценка расклада a определяется как:
Теперь взвешенная по Больцману оценка раскладки a составляет:
Где коэффициент масштабирования.
Вероятность совмещения в предположении распределения Больцмана определяется выражением
Где - статистическая сумма, т.е. сумма весов Больцмана всех выравниваний.
Динамическое программирование [ править ]
Пусть обозначают статсумму префиксов и . Рассмотрены три разных случая:
- функция распределения всех выравниваний двух префиксов, заканчивающихся совпадением.
- функция распределения всех выравниваний двух префиксов, заканчивающихся вставкой .
- функция распределения всех выравниваний двух префиксов, заканчивающихся удалением .
Тогда у нас есть:
Инициализация [ править ]
Матрицы инициализируются следующим образом:
Статистическая сумма для выравнивания двух последовательностей и задается выражением , которое может быть вычислено рекурсивно:
- аналогично
Вероятность пары оснований [ править ]
Наконец, вероятность того, что позиционируется и образуется пара оснований, определяется выражением:
являются соответствующими значениями для пересчитанных строк с инвертированными парами оснований.
Внешние ссылки [ править ]