GeneMark - это общее название семейства программ ab initio предсказания генов, разработанных в Технологическом институте Джорджии в Атланте . Разработанный в 1993 году оригинальный GeneMark использовался в 1995 году в качестве основного инструмента прогнозирования генов для аннотации первого полностью секвенированного бактериального генома Haemophilus influenzae , а в 1996 году - для первого архейного генома Methanococcus jannaschii . Алгоритм ввел неоднородные три-периодическая цепь Маркова модели белок-кодирующей ДНК - последовательности ,это стало стандартом в предсказании генов, а также в байесовском подходе к предсказанию генов одновременно в двух цепях ДНК. Специфические для вида параметры моделей оценивались на основе обучающих наборов последовательностей известного типа (кодирующие и некодирующие). На основном этапе алгоритма вычисляются апостериорные вероятности для данного фрагмента ДНК либо «кодирования белка» (несущего генетический код ) в каждой из шести возможных рамок считывания (включая три кадра в комплементарной цепи ДНК ), либо «некодирования». . Оригинальный GeneMark (разработанный до эры HMM в биоинформатике) представляет собой алгоритм, подобный HMM; его можно рассматривать как приближение к известному в теории HMM алгоритму апостериорного декодирования для правильно определенного HMM.
Автор (ы) оригинала | Группа биоинформатики Марка Бородовского |
---|---|
Разработчики) | Технологический институт Джорджии |
Первый выпуск | 1993 г. |
Операционная система | Linux , Windows и Mac OS |
Лицензия | Бесплатно для академических, некоммерческих или государственных нужд |
Веб-сайт | opal.biology.gatech.edu/GeneMark |
Прогнозирование прокариотических генов
Алгоритм GeneMark.hmm (1998) был разработан для повышения точности предсказания генов при поиске коротких генов и генных запусков. Идея заключалась в том, чтобы интегрировать модели цепей Маркова, используемые в GeneMark, в структуру скрытых марковских моделей , при этом переход между кодирующими и некодирующими областями формально интерпретируется как переходы между скрытыми состояниями. Кроме того, модель сайта связывания рибосом использовалась для повышения точности предсказания начала гена. Следующий шаг был сделан с разработкой самообучающегося инструмента прогнозирования генов GeneMarkS (2001). GeneMarkS активно используется сообществом специалистов по геномике для идентификации генов в новых геномных последовательностях прокариот. GeneMarkS +, расширение GeneMarkS, объединяющее информацию о гомологичных белках в предсказание генов, используется в конвейере NCBI для аннотации прокариотических геномов; конвейер может аннотировать до 2000 геномов ежедневно ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).
Эвристические модели и прогнозирование генов в метагеномах и метатрансциптомах
Точная идентификация видоспецифичных параметров алгоритмов GeneMark и GeneMark.hmm была ключевым условием для создания точных прогнозов генов. Однако был поднят вопрос, мотивированный исследованиями вирусных геномов, как определить параметры для предсказания генов в довольно короткой последовательности, не имеющей большого геномного контекста. В 1999 году этот вопрос был решен путем разработки «эвристического метода» вычисления параметров как функций от содержания последовательности G + C. С 2004 года модели, построенные на основе эвристического подхода, используются для поиска генов в метагеномных последовательностях. Впоследствии анализ нескольких сотен прокариотических геномов привел к разработке более совершенного эвристического метода (реализованного в MetaGeneMark) в 2010 году.
Прогнозирование эукариотических генов
В геномах эукариот моделирование границ экзонов с интронами и межгенными областями представляет собой серьезную проблему, решаемую с помощью HMM. HMM-архитектура эукариотического GeneMark.hmm включает скрытые состояния для начальных, внутренних и конечных экзонов, интронов , межгенных областей и генов одиночных экзонов, расположенных в обеих цепях ДНК. Первоначальный эукариотический GeneMark.hmm требовал обучающих наборов для оценки параметров алгоритма. В 2005 году была разработана первая версия алгоритма самообучения GeneMark-ES. В 2008 году алгоритм GeneMark-ES был распространен на грибковые геномы путем разработки специальной модели интрона и более сложной стратегии самообучения. Затем, в 2014 году, в семейство был добавлен алгоритм GeneMark-ET, который дополнял самообучение информацией из отображенных в несобранный геном считываний RNA-Seq. Прогнозирование генов в эукариотических транскриптах может быть выполнено с помощью нового алгоритма GeneMarkS-T (2015)
Семейство программ генетического прогнозирования GeneMark
Бактерии, Археи
- GeneMark
- GeneMarkS
- GeneMarkS +
Метагеномы и метатранскриптомы
- MetaGeneMark
Эукариоты
- GeneMark
- GeneMark.hmm [1]
- GeneMark-ES: алгоритм поиска генов для геномов эукариот, который выполняет автоматическое обучение в неконтролируемом ab initio режиме. [2]
- GeneMark-ET: дополняет GeneMark-ES новым методом, который интегрирует выравнивание считывания RNA-Seq в процедуру самообучения. [3]
- GeneMark-EX: полностью автоматический интегрированный инструмент для аннотации генома, который демонстрирует высокую производительность для входных данных различного размера, структуры и качества. Алгоритм выбирает подход к оценке параметров в зависимости от объема, качества и особенностей входных данных, размера набора данных RNA-seq, филогенетического положения вида, степени фрагментации сборки. Он может автоматически изменять архитектуру HMM в соответствии с особенностями рассматриваемого генома и интегрировать информацию о транскриптах и белках в процесс прогнозирования генов. [4]
Вирусы, фаги и плазмиды
- Эвристические модели
Транскрипты, собранные из RNA-Seq, читаются
- GeneMarkS-T
Смотрите также
Рекомендации
- Бородовский М. и МакИнинч Дж. « GeneMark: параллельное распознавание генов для обеих цепей ДНК ». Computers & Chemistry (1993) 17 (2): 123–133.
- Лукашин А. и Бородовский М. « GeneMark.hmm: новые решения для поиска генов ». Исследование нуклеиновых кислот (1998) 26 (4): 1107–1115. DOI : 10,1093 / NAR / 26.4.1107
- Бесемер Дж. И Бородовский М. « Эвристический подход к созданию моделей для поиска генов ». Исследование нуклеиновых кислот (1999) 27 (19): 3911–3920. DOI : 10,1093 / NAR / 27.19.3911
- Besemer J., Ломсадзе А. и Бородовский М. « GeneMarkS: метод самообучения для предсказания начала гена в микробных геномах Последствие для нахождения мотивов последовательности в регуляторных областях.. » Nucleic Acids Research (2001) 29 (12): 2607 –2618. DOI : 10,1093 / NAR / 29.12.2607
- Миллс Р., Розанов М., Ломсадзе А., Татусова Т. и Бородовский М. « Улучшение аннотации генов в полных вирусных геномах ». Исследование нуклеиновых кислот (2003) 31 (23): 7041–7055. DOI : 10,1093 / NAR / gkg878
- Besemer J. и Бородовский М. " GeneMark:. Веб - программного обеспечения для генного нахождения в прокариот, эукариот и вирусов " Nucleic Acids Research (2005) 33 (Web Issue Server): W451-454. DOI : 10,1093 / NAR / gki487
- Ломсадзе А., Тер-Ованесян В., Чернов Ю. и Бородовский М. « Идентификация генов в новых геномах эукариот с помощью алгоритма самообучения ». Исследование нуклеиновых кислот (2005) 33 (20): 6494–6506. DOI : 10,1093 / NAR / gki937
- Жу В., Ломсадзе А. и Бородовский М. « Идентификация гена Ab initio в метагеномных последовательностях ». Исследование нуклеиновых кислот (2010) 38 (12): e132. DOI : 10,1093 / NAR / gkq275
Внешние ссылки
- Официальный веб-сайт
- ^ http://exon.gatech.edu/GeneMark/gmhmme.cgi
- ^ https://academic.oup.com/nar/article/33/20/6494/1082033
- ^ https://www.rna-seqblog.com/genemark-et-gene-finding-algorithm-for-eukaryotic-genomes/
- ^ https://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX