Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В биоинформатики , проблеск (Gene Локатор и интерполяция Марки Modeler) используются для обнаружения генов в прокариотической ДНК . [1] «Он эффективен при обнаружении генов в бактериях , архее , вирусах , обычно обнаруживая 98-99% всех относительно длинных генов, кодирующих белок ». [1] GLIMMER была первой системой, которая использовала интерполированную марковскую модель [2] для идентификации кодирующих областей. Программное обеспечение GLIMMER имеет открытый исходный код и поддерживается Стивеном Зальцбергом , Артом Делхером и их коллегами изЦентр компьютерной биологии [3] при Университете Джона Хопкинса . Оригинальные алгоритмы и программное обеспечение GLIMMER были разработаны Артом Делчером, Саймоном Касифом и Стивеном Зальцбергом и применены для аннотации бактериального генома в сотрудничестве с Оуэном Уайтом .

Версии [ править ]

GLIMMER 1.0 [ править ]

Первая версия GLIMMER «т.е. GLIMMER 1.0» была выпущена в 1998 году и была опубликована в статье « Идентификация микробных генов с использованием интерполированной марковской модели» . [1] Марковские модели использовались для идентификации микробных генов в GLIMMER 1.0. GLIMMER учитывает локальные зависимости последовательности композиций, что делает GLIMMER более гибким и мощным по сравнению с марковской моделью фиксированного порядка .

Было проведено сравнение между интерполированной марковской моделью, используемой GLIMMER, и марковской моделью пятого порядка в статье « Идентификация микробных генов с использованием интерполированных марковских моделей» . [1] «Алгоритм GLIMMER обнаружил 1680 генов из 1717 аннотированных генов в Haemophilus influenzae, где модель Маркова пятого порядка обнаружила 1574 гена. GLIMMER обнаружил 209 дополнительных генов, которые не были включены в 1717 аннотированных генов, тогда как модель Маркова пятого порядка нашла 104 гена». [1]

GLIMMER 2.0 [ править ]

Вторая версия GLIMMER, т. Е. GLIMMER 2.0, была выпущена в 1999 г. и опубликована в статье « Улучшенная идентификация микробов с помощью GLIMMER» . [4] В этой статье [4] представлены значительные технические улучшения, такие как использование интерполированной контекстной модели вместо интерполированной марковской модели и разрешение перекрывающихся генов, что повышает точность GLIMMER.

Вместо интерполированной марковской модели используются интерполированные контекстные модели, что дает возможность выбора любой базы. В интерполированной марковской модели распределение вероятностей базы определяется из непосредственно предшествующих баз. Если непосредственно предшествующее основание является нерелевантной трансляцией аминокислоты , интерполированная марковская модель по-прежнему учитывает предыдущее основание для определения вероятности данного основания, тогда как интерполированная контекстная модель, которая использовалась в GLIMMER 2.0, может игнорировать нерелевантные основания. Количество ложноположительных прогнозов было увеличено в GLIMMER 2.0, чтобы уменьшить количество ложноотрицательных прогнозов. Перекрывающиеся гены также разрешены в GLIMMER 2.0.

Различные сравнения между GLIMMER 1.0 и GLIMMER 2.0 были сделаны в статье Улучшенная идентификация микробов с помощью GLIMMER [4], которая показывает улучшение в более поздней версии. «Чувствительность GLIMMER 1.0 колеблется от 98,4 до 99,7% со средним значением 99,1%, тогда как GLIMMER 2.0 имеет диапазон чувствительности от 98,6 до 99,8% со средним значением 99,3%. GLIMMER 2.0 очень эффективен в обнаружении генов высокой плотности. паразит Trypanosoma brucei , вызывающий африканскую сонную болезнь , идентифицируется GLIMMER 2.0 » [4]

GLIMMER 3.0 [ править ]

Третья версия GLIMMER, «GLIMMER 3.0», была выпущена в 2007 году и была опубликована в статье « Идентификация бактериальных генов и ДНК эндосимбионтов с помощью Glimmer» . [5] В этом документе описывается несколько основных изменений, внесенных в систему GLIMMER, включая улучшенные методы идентификации кодирующих областей и стартового кодона.. Подсчет ORF в GLIMMER 3.0 выполняется в обратном порядке, т.е. начиная со стоп-кодона и возвращается к стартовому кодону. Обратное сканирование помогает более точно идентифицировать кодирующую часть гена, которая содержится в контекстном окне IMM. GLIMMER 3.0 также улучшает сгенерированные данные обучающего набора, сравнивая длинную ORF с универсальным распределением аминокислот в сильно различающихся бактериальных геномах. GLIMMER 3.0 имеет средний выход длинной ORF 57% для различных организмов, тогда как GLIMMER 2.0 имеет средний длинный -ORF выход 39% ». [5]

GLIMMER 3.0 снижает количество ложноположительных прогнозов, которые были увеличены в GLIMMER 2.0, чтобы уменьшить количество ложноотрицательных прогнозов. «GLIMMER 3.0 имеет точность предсказания начальной точки 99,5% для совпадений 3'5 ', тогда как GLIMMER 2.0 имеет 99,1% для совпадений 3'5'. GLIMMER 3.0 использует новый алгоритм для сканирования областей кодирования, новый модуль обнаружения начальных сайтов , и архитектура, которая объединяет все предсказания генов по всему геному ". [5]

Минимальная длина описания

Теоретические и биологические основы [ править ]

Проект GLIMMER помог ввести и популяризировать использование моделей переменной длины в вычислительной биологии и биоинформатике, которые впоследствии были применены к многочисленным проблемам, таким как классификация белков и другие. Первоначально моделирование переменной длины было предложено теоретиками информации, а затем гениально применено и популяризировано в области сжатия данных (например, сжатие Зива-Лемпеля). Прогнозирование и сжатие тесно связаны с помощью минимальной длины описания.Принципы. Основная идея - создать словарь часто употребляемых слов (мотивов в биологических последовательностях). Интуиция подсказывает, что часто встречающиеся мотивы могут быть наиболее предсказательными и информативными. В GLIMMER интерполированная модель представляет собой смесь вероятностей этих относительно общих мотивов. Подобно развитию HMM в вычислительной биологии, на авторов GLIMMER концептуально повлияло предыдущее применение другого варианта интерполированных моделей Маркова для распознавания речи такими исследователями, как Фред Елинек (IBM) и Эрик Ристад (Принстон). Алгоритм обучения в GLIMMER отличается от этих более ранних подходов.

Доступ [ редактировать ]

GLIMMER можно загрузить с домашней страницы Glimmer (требуется компилятор C ++ ). Альтернативно, онлайн-версия размещена в NCBI [1] .

Как это работает [ править ]

  1. Проблеск в первую очередь ищет долгосрочных ORFS . Открытая рамка считывания может перекрываться с любой другой открытой рамкой считывания, которая будет разрешена с использованием техники, описанной в подразделе. Используя эти длинные ORFS и следуя определенному распределению аминокислот, GLIMMER генерирует данные обучающего набора .
  2. Используя эти обучающие данные, GLIMMER обучает все шесть марковских моделей кодирующей ДНК от нулевого до восьмого порядка, а также обучает модель некодирующей ДНК.
  3. GLIMMER пытается вычислить вероятности на основе данных. Основываясь на количестве наблюдений, GLIMMER определяет, использовать ли марковскую модель фиксированного порядка или интерполированную марковскую модель.
    1. Если количество наблюдений превышает 400, GLIMMER использует марковскую модель фиксированного порядка для получения вероятностей.
    2. Если количество наблюдений меньше 400, GLIMMER использует интерполированную марковскую модель, которая кратко объясняется в следующем подразделе.
  4. GLIMMER получает оценку для каждой длинной ORF, созданной с использованием всех шести моделей кодирующей ДНК, а также с использованием модели некодирующей ДНК.
  5. Если оценка, полученная на предыдущем этапе, больше определенного порога, GLIMMER предсказывает, что это ген.

Шаги, описанные выше, описывают основные функции GLIMMER. В GLIMMER внесены различные улучшения, некоторые из которых описаны в следующих подразделах.

Система GLIMMER [ править ]

Система GLIMMER состоит из двух программ. Первая программа называется build-imm, которая принимает входной набор последовательностей и выводит интерполированную марковскую модель следующим образом.

Вычисляется вероятность для каждой базы, то есть A, C, G, T для всех k-мер для 0 ≤ k ≤ 8. Затем для каждого k- мера GLIMMER вычисляет вес. Вероятность новой последовательности вычисляется следующим образом.

где п длина последовательности является олигомер в положении х. , оценка модели Маркова -порядка, интерполированная, вычисляется как

«где - вес k-мера в позиции x-1 в последовательности S, и является оценкой, полученной из обучающих данных, вероятности того, что база находится в позиции x в модели порядка». [1]

Вероятность основания с учетом предыдущих i оснований вычисляется следующим образом.

"Значение, связанное с, можно рассматривать как меру уверенности в точности этого значения как оценки истинной вероятности. GLIMMER использует два критерия для определения . Первый из них - простая частота появления, в которой количество вхождений Строка контекста в обучающих данных превышает определенное пороговое значение, затем устанавливается равным 1.0. Текущее значение по умолчанию для порога составляет 400, что дает 95% уверенности. Когда количество экземпляров контекстной строки недостаточно, build-imm использует дополнительные критерии для определения значения. для данного контекста строки длины я, строить-IMM сравнить наблюдаемые частоты следующего основания , , ,с ранее рассчитанной интерполированной моделью вероятность Маркова с использованием следующего контекста короче, , , , . Используя тест, build-imm определяет, насколько вероятно, что четыре наблюдаемые частоты согласуются со значениями IMM из следующего более короткого контекста ». [1]

Вторая программа, называемая glimmer, затем использует этот IMM для идентификации предполагаемого гена во всем геноме. GLIMMER идентифицирует все открытые рамки считывания, оценка которых превышает пороговое значение, и проверяет перекрывающиеся гены. Устранение перекрывающихся генов объясняется в следующем подразделе.

Уравнения и объяснение используемых выше терминов взяты из статьи «Идентификация микробных генов с использованием интерполированных марковских моделей [1].

Устранение перекрывающихся генов [ править ]

В GLIMMER 1.0, когда два гена A и B перекрываются, область перекрытия оценивается. Если A длиннее, чем B, и если A имеет более высокие баллы в области перекрытия, и если перемещение начального сайта B не устраняет перекрытие, то B отклоняется.

GLIMMER 2.0 предоставил лучшее решение для устранения перекрытия. В GLIMMER 2.0, когда два потенциальных гена A и B перекрываются, область перекрытия оценивается. Предположим, что ген А набрал больше баллов, рассматриваются четыре разные ориентации.

Случай 1

В приведенном выше случае перемещение начальных участков не устраняет перекрытие. Если A значительно длиннее, чем B, то B отклоняется, или же оба A и B называются генами с сомнительным перекрытием.

Случай 2

В приведенном выше случае перемещение B может разрешить перекрытие, A и B можно назвать неперекрывающимися генами, но если B значительно короче, чем A, то B отклоняется.

Случай 3

В приведенном выше случае перемещение A может устранить перекрытие. A перемещается только в том случае, если перекрытие составляет небольшую долю от A, иначе B отклоняется.

Случай 4

В приведенном выше случае можно перемещать как A, так и B. Сначала мы перемещаем начало B до тех пор, пока область перекрытия не наберет более высокий балл для B. Затем мы перемещаем начало A, пока оно не станет более высоким. Затем снова B и так далее, пока либо перекрытие не будет устранено, либо дальнейшие ходы не будут выполнены.

Приведенный выше пример взят из статьи «Идентификация бактериальных генов и ДНК эндосимбионтов с помощью Glimmer» [5]

Сайты связывания рибосом [ править ]

Сигнал сайта связывания рибосомы (RBS) может быть использован для определения истинного положения стартового сайта. Результаты GLIMMER передаются в качестве входных данных для программы RBSfinder для прогнозирования сайтов связывания рибосом. GLIMMER 3.0 интегрирует программу RBSfinder в саму функцию прогнозирования генов.

Программное обеспечение ELPH (которое было определено как высокоэффективное при идентификации RBS в статье [5] ) используется для идентификации RBS и доступно на этом веб-сайте . Алгоритм выборки Гиббса используется для идентификации общего мотива в любом наборе последовательностей. Этот общий мотивпоследовательности и их длина вводятся в ELPH. Затем ELPH вычисляет матрицу весов положения (PWM), которая будет использоваться GLIMMER 3 для оценки любого потенциального RBS, обнаруженного RBSfinder. Вышеупомянутый процесс выполняется, когда у нас есть значительное количество обучающих генов. Если количество обучающих генов недостаточное, GLIMMER 3 может сам настроить себя, чтобы сгенерировать набор прогнозов генов, которые можно использовать в качестве входных данных для ELPH. ELPH теперь вычисляет ШИМ, и этот ШИМ можно снова использовать на том же наборе генов, чтобы получить более точные результаты для стартовых сайтов. Этот процесс можно повторять для многих итераций, чтобы получить более согласованные результаты ШИМ и прогнозирования генов.

Производительность [ править ]

Glimmer поддерживает усилия по аннотации генома для широкого круга видов бактерий, архей и вирусов. В крупномасштабных усилиях по обновлению аннотаций в банке данных ДНК Японии (DDBJ, который является зеркалом Genbank ). Kosuge et al. (2006) [6] исследовали методы поиска генов, используемые для 183 геномов. Они сообщили, что из этих проектов Glimmer был генным искателем для 49%, за ним следует GeneMark.с 12%, с другими алгоритмами, используемыми в 3% или меньше проектов. (Они также сообщили, что 33% геномов использовали «другие» программы, что во многих случаях означало, что они не могли идентифицировать метод. За исключением этих случаев, Glimmer использовался для 73% геномов, для которых методы могли быть однозначно идентифицированы. ) Glimmer использовался DDBJ для повторного аннотирования всех бактериальных геномов в международных базах данных нуклеотидных последовательностей. [7] Он также используется этой группой для аннотирования вирусов. [8] Glimmer является частью конвейера бактериальных аннотаций в Национальном центре биотехнологической информации (NCBI) [9], который также поддерживает веб-сервер для Glimmer [10], как и сайты в Германии, [11] Канаде ,.[12]

Согласно Google Scholar, по состоянию на начало 2011 года исходная статья Glimmer (Salzberg et al., 1998) [1] была процитирована 581 раз, а статья Glimmer 2.0 (Delcher et al., 1999) [4] была процитирована 950 раз. раз.

Ссылки [ править ]

  1. ^ Б с д е е г ч я Salzberg, SL; Делчер, AL; Kasif, S .; Уайт, О. (1998). «Идентификация микробных генов с использованием интерполированных марковских моделей» . Исследования нуклеиновых кислот . 26 (2): 544–548. DOI : 10.1093 / NAR / 26.2.544 . PMC  147303 . PMID  9421513 .
  2. ^ Зальцберг, SL; Pertea, M .; Делчер, AL; Гарднер, MJ; Теттелин, Х. (1999). «Интерполированные марковские модели для поиска эукариотических генов». Геномика . 59 (1): 24–31. CiteSeerX 10.1.1.126.431 . DOI : 10.1006 / geno.1999.5854 . PMID 10395796 .  
  3. ^ "Центр вычислительной биологии" . Университет Джона Хопкинса . Проверено 23 марта 2013 года .
  4. ^ a b c d e Delcher, A .; Harmon, D .; Kasif, S .; Белый, O .; Зальцберг, С. (1999). «Улучшенная идентификация микробных генов с помощью GLIMMER» . Исследования нуклеиновых кислот . 27 (23): 4636–4641. DOI : 10.1093 / NAR / 27.23.4636 . PMC 148753 . PMID 10556321 .  
  5. ^ a b c d e Делчер, AL; Братке, К.А.; Полномочия, EC; Зальцберг, SL (2007). «Идентификация бактериальных генов и ДНК эндосимбионтов с помощью Glimmer» . Биоинформатика . 23 (6): 673–679. DOI : 10.1093 / биоинформатики / btm009 . PMC 2387122 . PMID 17237039 .  
  6. ^ Kosuge, T .; Abe, T .; Окидо, Т .; Tanaka, N .; Hirahata, M .; Маруяма, Й .; Mashima, J .; Томики, А .; Курокава, М .; Himeno, R .; Fukuchi, S .; Миядзаки, S .; Gojobori, T .; Tateno, Y .; Сугавара, Х. (2006). «Исследование и классификация возможных генов из 183 бактериальных штаммов с помощью общего протокола для идентификации новых генов: генный путь в прокариотном пространстве (GTPS)» . Исследования ДНК . 13 (6): 245–254. DOI : 10,1093 / dnares / dsl014 . PMID 17166861 . 
  7. ^ Sugawara, H .; Abe, T .; Gojobori, T .; Татено, Ю. (2007). «DDBJ работает над оценкой и классификацией бактериальных генов в INSDC» . Исследования нуклеиновых кислот . 35 (выпуск базы данных): D13 – D15. DOI : 10.1093 / NAR / gkl908 . PMC 1669713 . PMID 17108353 .  
  8. ^ Хирахата, М .; Abe, T .; Tanaka, N .; Kuwana, Y .; Shigemoto, Y .; Миядзаки, S .; Suzuki, Y .; Сугавара, Х. (2007). «Брокер информации о геноме вирусов (GIB-V): база данных для сравнительного анализа геномов вирусов» . Исследования нуклеиновых кислот . 35 (выпуск базы данных): D339 – D342. DOI : 10.1093 / NAR / gkl1004 . PMC 1781101 . PMID 17158166 .  
  9. ^ "NCBI Prokaryotic Genomes Automatic Annotation Pipeline (PGAAP)" . Центр биоинформатики и вычислительной биологии . Проверено 23 марта 2012 года .
  10. ^ "Инструменты аннотации микробного генома" . Центр биоинформатики и вычислительной биологии . Проверено 23 марта 2012 года .
  11. ^ "TiCo" . Institut für Mikrobiologie und Genetik, Universität Göttingen. 2005-02-11 . Проверено 23 марта 2012 года .
  12. ^ "Система аннотации бактерий BASys" . Архивировано из оригинального 24 июля 2012 года . Проверено 23 марта 2012 года .

Внешние ссылки [ править ]

  • Домашняя страница Glimmer в CCB, Университете Джона Хопкинса , с которой можно загрузить программное обеспечение.