Rfam - это база данных, содержащая информацию о семействах некодирующих РНК (нкРНК) и других структурированных элементах РНК. Это аннотированный , открытый доступ к базе данных , первоначально разработанный в Wellcome Trust Sanger Institute совместно с Janelia Farm , [1] [2] [3] [4] и в настоящее время размещается в Европейском биоинформатики институте . [5] Rfam разработан так, чтобы быть похожим на базу данных Pfam для аннотирования семейств белков.
Содержание | |
---|---|
Описание | База данных Rfam предоставляет сопоставления, согласованные вторичные структуры и ковариационные модели для семейств РНК. |
Типы данных захвачены | Семейства РНК |
Организмы | все |
Контакт | |
Исследовательский центр | EBI |
Первичное цитирование | PMID 33211869 |
Доступ | |
Формат данных | Стокгольмский формат |
Веб-сайт | rfam |
Скачать URL | FTP |
Разнообразный | |
Лицензия | Всеобщее достояние |
Добавляемые в закладки объекты | да |
В отличие от белков нкРНК часто имеют сходную вторичную структуру, но не имеют большого сходства в первичной последовательности . Rfam делит нкРНК на семейства на основе эволюции от общего предка. Получение множественных выравниваний последовательностей (MSA) этих семейств может дать представление об их структуре и функциях, как и в случае семейств белков. Эти MSA становятся более полезными с добавлением информации о вторичной структуре. Rfam исследователи также вносят свой вклад в Википедии «s РНК WikiProject . [4] [6]
Использует
База данных Rfam может использоваться для множества функций. Для каждого семейства нкРНК интерфейс позволяет пользователям: просматривать и загружать несколько выравниваний последовательностей; прочитать аннотацию; и изучить видовое распределение членов семьи. Также имеются ссылки на литературные источники и другие базы данных РНК. Rfam также предоставляет ссылки на Википедию, чтобы пользователи могли создавать или редактировать записи.
Интерфейс на веб-сайте Rfam позволяет пользователям искать нкРНК по ключевому слову, фамилии или геному, а также выполнять поиск по последовательности нкРНК или регистрационному номеру EMBL . [1] Информация о базе данных также доступна для загрузки, установки и использования с помощью программного пакета INFERNAL. [7] [8] [9] Пакет INFERNAL также можно использовать с Rfam для аннотирования последовательностей (включая полные геномы) гомологов известных нкРНК.
Методы
В базе данных информация о вторичной структуре и первичной последовательности , представленная MSA , объединяется в статистических моделях, называемых стохастическими контекстно-свободными грамматиками профиля (SCFG), также известными как ковариационные модели. Они аналогичны скрытым марковским моделям, используемым для аннотации семейств белков в базе данных Pfam . [1] Каждое семейство в базе данных представлено двумя множественными выравниваниями последовательностей в Стокгольмском формате и SCFG.
Первый MSA - это «начальное» выравнивание. Это вручную подобранное выравнивание, которое содержит репрезентативных членов семейства нкРНК и аннотировано структурной информацией. Это начальное выравнивание используется для создания SCFG, который используется с программным обеспечением Rfam INFERNAL для идентификации дополнительных членов семейства и добавления их к выравниванию. Для исключения ложных срабатываний выбирается пороговое значение для конкретной семьи.
До выпуска 12 Rfam использовал начальный этап фильтрации BLAST, потому что профили SCFG были слишком дорогостоящими в вычислительном отношении. Однако последние версии INFERNAL достаточно быстры [10], так что шаг BLAST больше не нужен. [11]
Второй MSA представляет собой «полное» выравнивание и создается в результате поиска с использованием модели ковариации по базе данных последовательностей. Все обнаруженные гомологи выравниваются по модели, обеспечивая автоматическое полное выравнивание.
История
Версия 1.0 Rfam была запущена в 2003 году и содержала 25 семейств нкРНК и аннотировала около 50 000 генов нкРНК. В 2005 году была выпущена версия 6.1, которая содержала 379 семейств, аннотирующих более 280 000 генов. В августе 2012 года версия 11.0 содержала 2208 семейств РНК, тогда как текущая версия (14.1) аннотирует 3016 семейств.
Проблемы
- Геномы высших эукариот содержат множество псевдогенов и повторов, происходящих от нкРНК . Отличить эти нефункциональные копии от функциональной нкРНК - сложная задача. [2]
- Интроны не моделируются ковариационными моделями.
Рекомендации
- ^ а б Гриффитс-Джонс С., Бейтман А., Маршалл М., Ханна А., Эдди С. Р. (2003). «Rfam: база данных семейства РНК» . Nucleic Acids Res . 31 (1): 439–41. DOI : 10.1093 / NAR / gkg006 . PMC 165453 . PMID 12520045 .
- ^ а б Гриффитс-Джонс С., Моксон С., Маршалл М., Ханна А., Эдди С. Р., Бейтман А. (2005). «Rfam: аннотирование некодирующих РНК в полных геномах» . Nucleic Acids Res . 33 (Выпуск базы данных): D121–4. DOI : 10.1093 / NAR / gki081 . PMC 540035 . PMID 15608160 .
- ^ Гарднер П.П., Дауб Дж., Тейт Дж. Г. и др. (Октябрь 2008 г.). «Rfam: обновления базы данных семейств РНК» . Исследования нуклеиновых кислот . 37 (выпуск базы данных): D136 – D140. DOI : 10.1093 / NAR / gkn766 . PMC 2686503 . PMID 18953034 .
- ^ а б Гарднер П.П., Дауб Дж., Тейт Дж., Мур Б.Л., Осуч И.Х., Гриффитс-Джонс С., Финн Р.Д., Навроцкий Е.П., Кольбе Д.Л., Эдди С.Р., Бейтман А. (2011). «Рфам: Википедия, кланы и« десятичный »выпуск» . Nucleic Acids Res . 39 (выпуск базы данных): D141–5. DOI : 10.1093 / NAR / gkq1129 . PMC 3013711 . PMID 21062808 .
- ^ «Переход на xfam.org» . Блог Xfam . Дата обращения 3 мая 2014 .
- ^ Дауб Дж., Гарднер П.П., Тейт Дж. И др. (Октябрь 2008 г.). "The RNA WikiProject: Сообщество аннотаций семейств РНК" . РНК . 14 (12): 2462–4. DOI : 10,1261 / rna.1200508 . PMC 2590952 . PMID 18945806 .
- ^ Эдди С.Р., Дурбин Р. (июнь 1994 г.). «Анализ последовательности РНК с использованием ковариационных моделей» . Исследования нуклеиновых кислот . 22 (11): 2079–88. DOI : 10.1093 / nar / 22.11.2079 . PMC 308124 . PMID 8029015 .
- ^ Эдди С.Р. (2002). «Эффективный с точки зрения памяти алгоритм динамического программирования для оптимального выравнивания последовательности с вторичной структурой РНК» . BMC Bioinformatics . 3 : 18. DOI : 10,1186 / 1471-2105-3-18 . PMC 119854 . PMID 12095421 .
- ^ Nawrocki EP, Эдди SR (2013). «Infernal 1.1: поиск гомологии РНК в 100 раз быстрее» . Биоинформатика . 29 (22): 2933–5. DOI : 10.1093 / биоинформатики / btt509 . PMC 3810854 . PMID 24008419 .
- ^ Nawrocki, Eric P .; Эдди, Шон Р. (2013-11-15). «Infernal 1.1: поиск гомологии РНК в 100 раз быстрее» . Биоинформатика . 29 (22): 2933–2935. DOI : 10.1093 / биоинформатики / btt509 . ISSN 1367-4811 . PMC 3810854 . PMID 24008419 .
- ^ Nawrocki, Eric P .; Бердж, Сара У .; Бейтман, Алекс; Дауб, Дженнифер; Eberhardt, Ruth Y .; Эдди, Шон Р .; Floden, Evan W .; Гарднер, Пол П .; Джонс, Томас А. (январь 2015 г.). «Rfam 12.0: обновления базы данных семейств РНК» . Исследования нуклеиновых кислот . 43 (выпуск базы данных): D130–137. DOI : 10.1093 / NAR / gku1063 . ISSN 1362-4962 . PMC 4383904 . PMID 25392425 .
Внешние ссылки
- Сайт Rfam в Европейском институте биоинформатики
- Программный комплекс INFERNAL
- miRBase