Максимизация множественных ожиданий для выявления мотивов (MEME) - это инструмент для обнаружения мотивов в группе связанных последовательностей ДНК или белков . [1]
Мотив представляет собой шаблон последовательности , которая повторяется в группе родственных последовательностей белка или ДНК и часто ассоциируется с некоторой биологической функцией. MEME представляет мотивы в виде зависимых от положения букв-вероятностных матриц, которые описывают вероятность каждой возможной буквы в каждой позиции в шаблоне. Отдельные мотивы цМема не содержат пробелов. Узоры с промежутками переменной длины разделяются цМемом на два или более отдельных мотива.
MEME принимает в качестве входных данных группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько требуется. Он использует методы статистического моделирования для автоматического выбора наилучшей ширины, количества вхождений и описания для каждого мотива.
MEME - это первый из набора инструментов для анализа мотивов, который называется набором MEME .
Определение
Алгоритм цМема можно понять с двух разных точек зрения. С биологической точки зрения цМем идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики, цМем находит набор неперекрывающихся, приблизительно совпадающих подстрок с учетом начального набора строк. [ необходима цитата ]
Использовать
ЦМемы можно использовать для поиска сходных биологических функций и структур в различных последовательностях. Необходимо учитывать, что вариации последовательностей могут быть значительными, а мотивы иногда очень малы. Также полезно учитывать, что сайты связывания белков очень специфичны. Это упрощает сокращение количества экспериментов в лаборатории с мокрым эффектом (экономия средств и времени). Действительно, чтобы лучше обнаружить мотивы, релевантные с биологической точки зрения, необходимо тщательно выбирать: наилучшую ширину мотивов, количество вхождений в каждой последовательности и композицию каждого мотива.
Компоненты алгоритма
Алгоритм использует несколько типов хорошо известных функций:
- Максимизация ожидания (EM).
- Эвристика на основе EM для выбора начальной точки EM.
- На основе отношения максимального правдоподобия (на основе LRT). Эвристика для определения наилучшего количества безмодельных параметров.
- Мультистарт для поиска возможной ширины мотивов.
- Жадный поиск множества мотивов.
Однако часто не известно, где находится исходная позиция. Существует несколько возможностей: ровно один мотив на последовательность, или один или ноль мотив на последовательность, или любое количество мотивов на последовательность.
Смотрите также
Рекомендации
- ^ Бейли Т.Л., Элкан С. Неконтролируемое изучение множественных мотивов в биополимерах с использованием ЭМ. Мах. Учить. 1995; 21: 51–80.
Внешние ссылки
- MEME Suite - инструменты анализа последовательности на основе мотивов
- Версия MEME с ускорением на GPU
- EXTREME - интерактивная EM-реализация модели цМема для быстрого обнаружения мотивов в больших данных отпечатков ChIP-Seq и DNase-Seq.