Множественные ЭМ для выявления мотивов

Максимизация множественных ожиданий для выявления мотивов (MEME) - это инструмент для обнаружения мотивов в группе связанных последовательностей ДНК или белков . ^[1]

Мотив представляет собой шаблон последовательности , которая повторяется в группе родственных последовательностей белка или ДНК и часто ассоциируется с некоторой биологической функцией. MEME представляет мотивы в виде зависимых от положения букв-вероятностных матриц, которые описывают вероятность каждой возможной буквы в каждой позиции в шаблоне. Отдельные мотивы цМема не содержат пробелов. Узоры с промежутками переменной длины разделяются цМемом на два или более отдельных мотива.

MEME принимает в качестве входных данных группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько требуется. Он использует методы статистического моделирования для автоматического выбора наилучшей ширины, количества вхождений и описания для каждого мотива.

MEME - это первый из набора инструментов для анализа мотивов, который называется набором MEME .

Определение

Алгоритм цМема можно понять с двух разных точек зрения. С биологической точки зрения цМем идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики, цМем находит набор неперекрывающихся, приблизительно совпадающих подстрок с учетом начального набора строк. ^{[ необходима цитата ]}

Использовать

ЦМемы можно использовать для поиска сходных биологических функций и структур в различных последовательностях. Необходимо учитывать, что вариации последовательностей могут быть значительными, а мотивы иногда очень малы. Также полезно учитывать, что сайты связывания белков очень специфичны. Это упрощает сокращение количества экспериментов в лаборатории с мокрым эффектом (экономия средств и времени). Действительно, чтобы лучше обнаружить мотивы, релевантные с биологической точки зрения, необходимо тщательно выбирать: наилучшую ширину мотивов, количество вхождений в каждой последовательности и композицию каждого мотива.

Компоненты алгоритма

Алгоритм использует несколько типов хорошо известных функций:

Максимизация ожидания (EM).
Эвристика на основе EM для выбора начальной точки EM.
На основе отношения максимального правдоподобия (на основе LRT). Эвристика для определения наилучшего количества безмодельных параметров.
Мультистарт для поиска возможной ширины мотивов.
Жадный поиск множества мотивов.

Однако часто не известно, где находится исходная позиция. Существует несколько возможностей: ровно один мотив на последовательность, или один или ноль мотив на последовательность, или любое количество мотивов на последовательность.

Смотрите также

Внешние ссылки

MEME Suite - инструменты анализа последовательности на основе мотивов
Версия MEME с ускорением на GPU
EXTREME - интерактивная EM-реализация модели цМема для быстрого обнаружения мотивов в больших данных отпечатков ChIP-Seq и DNase-Seq.

[Bailey_and_Elkan_1995-1] Бейли Т.Л., Элкан С. Неконтролируемое изучение множественных мотивов в биополимерах с использованием ЭМ. Мах. Учить. 1995; 21: 51–80.

[1]