Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

База данных одиночного нуклеотидного полиморфизма [1] (dbSNP) - это бесплатный общедоступный архив генетических вариаций внутри и между разными видами, разработанный и размещенный Национальным центром биотехнологической информации (NCBI) в сотрудничестве с Национальным институтом исследования генома человека (NHGRI). Хотя название базы данных подразумевает набор только одного класса полиморфизмов (т. Е. Однонуклеотидных полиморфизмов (SNP)), на самом деле она содержит ряд молекулярных вариаций: (1) SNP , (2) полиморфизмы коротких делеций и вставок ( индели / ДИПы), (3) микроспутникмаркеры или короткие тандемные повторы (STR), (4) полинуклеотидные полиморфизмы (MNP), (5) гетерозиготные последовательности и (6) названные варианты. [2] dbSNP принимает очевидно нейтральные полиморфизмы, полиморфизмы, соответствующие известным фенотипам, и области без вариаций. Он был создан в сентябре 1998 года для дополнения GenBank , коллекции NCBI общедоступных последовательностей нуклеиновых кислот и белков. [2]

В 2017 году NCBI прекратил поддержку всех нечеловеческих организмов в dbSNP. [3] На момент сборки 153 (выпущенной в августе 2019 года) dbSNP собрал почти 2 миллиарда заявок, представляющих более 675 миллионов различных вариантов Homo sapiens .

a) Различные источники предоставляют данные, и каждому варианту присваивается уникальный идентификатор представленного номера SNP (ss #). б) dbSNP компилирует идентичные записи ss # в один эталонный кластер SNP (rs #), содержащий данные из каждого ss #. c) Пользователи могут извлекать данные для определенных записей rs # и анализировать эти вариации. г) Данные dbSNP помогают в клинических и прикладных исследованиях. Идентификаторы ss # и rs # на этом рисунке являются только примерами. NCBI, Национальный центр биотехнологической информации; OMIM, Интернет-Менделирующее наследование в человеке; GWAS, полногеномное ассоциативное исследование.

Цель [ править ]

dbSNP - это онлайн-ресурс, созданный для помощи исследователям- биологам . Его цель - действовать как единая база данных , содержащая все идентифицированные генетические вариации, которые можно использовать для исследования широкого спектра генетически обусловленных природных явлений. В частности, доступ к молекулярным вариациям, каталогизированным в dbSNP, помогает фундаментальным исследованиям, таким как физическое картирование, популяционная генетика , исследования эволюционных взаимосвязей, а также возможность быстро и легко количественно оценить количество вариаций в заданном интересующем месте. Кроме того, dbSNP направляет прикладные исследования в области фармакогеномики и ассоциации генетической изменчивости с фенотипическими признаками. [4] Согласно веб-сайту NCBI, «Долгосрочные инвестиции в такие новые и захватывающие исследования [dbSNP] обещают не только продвинуть вперед биологию человека, но и произвести революцию в практике современной медицины».

Подача [ править ]

1. Источник [ править ]

Первоначально dbSNP принимает заявки на любой организм из самых разных источников, включая отдельные исследовательские лаборатории, совместные усилия по обнаружению полиморфизма, крупномасштабные центры секвенирования генома, другие базы данных SNP (например, консорциум SNP, HapMap и т. Д.) И частный бизнес. [5] 1 сентября 2017 года dbSNP прекратил принимать данные о вариантах, отличных от человека, а два месяца спустя его интерактивные веб-сайты и соответствующие службы NCBI перестали предоставлять данные о вариантах, отличных от человека. Теперь dbSNP принимает и представляет только данные о человеческих вариантах.

2. Типы записей [ править ]

Каждый представленный вариант получает представленный идентификационный номер SNP («ss #»). [5] Этот регистрационный номер является стабильным и уникальным идентификатором для данной заявки. Уникальные представленные записи SNP также получают ссылочный номер идентификатора SNP («rs #»; «refSNP cluster»). Однако, скорее всего, в dbSNP будет отправлено более одной записи об изменении, особенно для клинически значимых вариантов. Чтобы приспособиться к этому, dbSNP обычно собирает идентичные представленные записи SNP в единую ссылочную запись SNP, которая также является уникальным и стабильным идентификатором (см. Ниже). [4]

3. Как подать [ редактировать ]

Чтобы отправить изменения в dbSNP, нужно сначала получить дескриптор отправителя, который идентифицирует лабораторию, ответственную за отправку. [4] Затем автор должен заполнить файл представления, содержащий соответствующую информацию и данные. Отправленные записи должны содержать десять основных элементов информации, перечисленных в следующей таблице. [4] Другая информация, необходимая для подачи, включает контактную информацию, информацию о публикации (название, журнал, авторы, год), тип молекулы (геномная ДНК , кДНК , митохондриальная ДНК, хлоропластная ДНК) и организм. [4] Более подробную информацию о том, как подать заявку на dbSNP, можно найти по адресу:Как отправить в dbSNP

Выпуск [ править ]

Новая информация, полученная dbSNP, периодически становится доступной для общественности в виде серии «сборок» (т. Е. Редакций и выпусков данных). [4] Нет графика выпуска новых сборок; вместо этого сборки обычно выпускаются, когда становится доступной новая сборка генома, при условии, что с геномом связаны какие-то каталогизированные вариации. [6]Это происходит примерно каждые 3–4 месяца. Последовательности генома могут быть улучшены с течением времени, поэтому эталонные SNP («refSNP») из предыдущих сборок, а также новые представленные SNP повторно отображаются на вновь доступную последовательность генома. Несколько отправленных SNP, если они сопоставлены с одним и тем же местоположением, группируются в один кластер refSNP, и им присваивается ссылочный номер идентификатора SNP. Однако, если обнаруживается, что две записи кластера refSNP соответствуют одному и тому же местоположению (т. Е. Идентичны), dbSNP также объединит эти записи. В этом случае меньший идентификатор номера refSNP (т. Е. Самая ранняя запись) теперь будет представлять обе записи, а идентификаторы большего номера refSNP станут устаревшими. Эти устаревшие идентификаторы номеров refSNP больше не используются для новых записей. Когда происходит слияние двух записей refSNP, изменение отслеживается,и прежние идентификаторы номеров refSNP все еще могут использоваться в качестве поискового запроса. Этот процесс объединения идентичных записей снижает избыточность в dbSNP.[6]

Есть два исключения из вышеуказанных критериев слияния. Во-первых, вариации разных классов (например, SNP и DIP) не объединяются. Во-вторых, клинически важные refSNP, которые цитировались в литературе, называются «драгоценными»; слияние, которое устранило бы такой refSNP, никогда не выполняется, так как впоследствии это может вызвать путаницу. [6]

Получение [ править ]

1. Как [ редактировать ]

DbSNP можно найти с помощью поискового инструмента Entrez SNP. Для поиска можно использовать различные запросы: идентификатор номера ss, идентификатор номера refSNP, имя гена, экспериментальный метод, класс популяции, детализация популяции, публикация, маркер, аллель, хромосома, база положение, диапазон гетерозиготности или номер сборки. [6] [7] Кроме того, многие результаты можно получить одновременно с помощью пакетных запросов. [6] Поиск возвращает идентификаторы номеров refSNP, которые соответствуют термину запроса, и сводку доступной информации для этого кластера refSNP.

2. Инструменты / данные [ редактировать ]

Информация, доступная для кластера refSNP, включает в себя основную информацию из каждого отдельного представления (см. «Представление»), а также информацию, доступную при объединении данных из нескольких представлений (например, гетерозиготность, частоты генотипов). Для более глубокого изучения кластера refSNP доступно множество инструментов. Карта показывает положение вариации в геноме и других близлежащих вариациях. Другой инструмент, просмотр генов, сообщает о местонахождении вариации в гене (если она есть в гене), старом и новом кодоне, аминокислотах, кодируемых обоими, и о том, является ли изменение синонимичным или несинонимичным. Программа просмотра последовательности показывает положение варианта по отношению к интронам , экзонам., и другие далекие и близкие варианты. Также доступно трехмерное картирование структуры, которое показывает трехмерные изображения кодируемого белка.

DbSNP также связан со многими другими ресурсами NCBI, включая базы данных нуклеотидов , белков , генов , таксономии и структуры, а также PubMed , UniSTS, PMC , OMIM и UniGene.

3. Статус проверки [ править ]

В статусе проверки перечислены категории свидетельств, поддерживающих вариант. К ним относятся: (1) несколько независимых представлений; (2) данные о частоте или генотипе; (3) подтверждение отправителя; (4) наблюдение всех аллелей по крайней мере в двух хромосомах; (5) генотипирован с помощью HapMap ; и (6) секвенированные в проекте « 1000 геномов» . [6]

Проблемы [ править ]

Качество данных, полученных по dbSNP, подвергалось сомнению многими исследовательскими группами [8] [9] [10] [11] [12] [13], которые подозревают высокий уровень ложноположительных результатов из-за ошибок генотипирования и определения базы ». Эти ошибки могут быть легко внесены в dbSNP, если заявитель использует (1) некритические биоинформатические выравнивания очень похожих, но различных последовательностей ДНК и / или (2) ПЦР с праймерами, которые не могут различать похожие, но разные последовательности ДНК. [8] Mitchell et al. (2004) [9] рассмотрели четыре исследования [10] [11] [12].[13] и пришли к выводу, что dbSNP имеет частоту ложноположительных результатов в пределах 15-17% для SNP, а также чточастотаминорных аллелей превышает 10% примерно для 80% SNP, которые не являются ложноположительными. Аналогичным образом Musemeci et al. (2010) [8] утверждает, что до 8,32% двуаллельных кодирующих SNP в dbSNP являются артефактами очень похожих последовательностей ДНК (т.е. паралоговых генов) и называют эти записи однонуклеотидными различиями (SND). Высокий уровень ошибок в dbSNP не может вызывать удивления: из 23,7 миллиона записей refSNP для людей только 14,5 миллиона были подтверждены, а остальные 9,2 миллиона остались в качестве SNP-кандидатов. Однако, согласно Musemeci et al. (2010), [8]даже код проверки, предоставленный в записи refSNP, полезен лишь частично: только проверка HapMap уменьшила количество SND (3% против 8%), но только принятие этого метода удаляет более половины реальных SNP в dbSNP. Эти авторы также отмечают, что один из источников представлений от группы Ли страдает ошибками: 20% этих представлений являются SND (по сравнению с 8% для представлений). Однако, как отмечают авторы, игнорирование всех этих представлений приведет к удалению многих реальных SNP.

Ошибки в dbSNP могут препятствовать исследованиям ассоциации генов-кандидатов [14] и исследованиям на основе гаплотипов . [15] Ошибки могут также увеличивать количество ложных выводов в ассоциативных исследованиях: [8] увеличение количества проверяемых SNP путем проверки ложных SNP требует дополнительных проверок гипотез. Однако эти ложные SNP на самом деле не могут быть связаны с признаками, поэтому альфа-уровень снижается больше, чем это необходимо для строгого теста, если были проверены только истинные SNP, а количество ложноотрицательных результатов увеличилось. Musemeci et al. (2010) [8] предложили авторам исследований отрицательных ассоциаций проверить свои предыдущие исследования на предмет ложных SNP (SND), которые можно было бы исключить из анализа.

Как цитировать данные из dbSNP [ править ]

К отдельным последовательностям можно обращаться по их номерам идентификаторов кластеров refSNP (например, rs206437). На dbSNP следует ссылаться, используя 2001 Sherry et al. статья: Шерри, С. Т., Уорд, М. Х., Холодов, М., Бейкер, Дж., Фан, Л., Смигельски, Е. М., Сироткин, К. (2001). dbSNP: база данных генетической изменчивости NCBI. Nucleic Acids Research, 29: 308-311. [5]

См. Также [ править ]

  • SNPedia
  • HapMap
  • NCBI
  • NHGRI

Ссылки [ править ]

  1. ^ Уилер Д.Л., Барретт Т., Бенсон Д.А. и др. (Январь 2007 г.). «Ресурсы базы данных Национального центра биотехнологической информации» . Nucleic Acids Res . 35 (выпуск базы данных): D5–12. DOI : 10.1093 / NAR / gkl1031 . PMC 1781113 . PMID 17170002 .  
  2. ^ a b Sherry ST, Ward M; Сироткин, К. (1999). «dbSNP - база данных для однонуклеотидных полиморфизмов и других классов минорных генетических вариаций». Геномные исследования . 9 (8): 677–679. doi : 10.1101 / gr.9.8.677 (неактивный 2021-01-17). PMID 10447503 . CS1 maint: DOI неактивен с января 2021 г. ( ссылка )
  3. ^ «Прекращение поддержки данных геномных организмов, отличных от человека, в dbSNP и dbVar» . 2017-05-09 . Проверено 9 июля 2017 года .
  4. ^ Б с д е ф Киттс А; Шерри С. (2009). «База данных однонуклеотидного полиморфизма (dbSNP) вариации нуклеотидной последовательности» . Национальный центр биотехнологической информации (США). Цитировать журнал требует |journal=( помощь )
  5. ^ a b c Шерри С.Т., Уорд М.Х., Холодов М., Бейкер Дж., Фан Л., Смигельски Е.М., Сироткин К. и др. (2001). «dbSNP: база данных генетической изменчивости NCBI» . Nucleic Acids Res . 29 (1): 308–311. DOI : 10.1093 / NAR / 29.1.308 . PMC 29783 . PMID 11125122 .  
  6. ^ Б с д е е NCBI (2010). «База данных полиморфизма одиночных нуклеотидов (dbSNP): часто задаваемые вопросы» . Национальный центр биотехнологической информации (США). Цитировать журнал требует |journal=( помощь )
  7. Перейти ↑ Phillips, C (2007). «Интернет-ресурсы для анализа SNP: обзор и карта маршрутов». Молекулярная биотехнология . 35 (1): 65–97. DOI : 10.1385 / MB: 35: 1: 65 . PMID 17401150 . S2CID 8569553 .  
  8. ^ a b c d e f Musemeci L, Arthur JW, Cheung FS, Hoque S, Lippman S, Reichardt JK и др. (Январь 2010 г.). «Различия отдельных нуклеотидов (SND) в базе данных dbSNP могут привести к ошибкам в исследованиях генотипирования и гаплотипирования» . Мутация человека . 31 (1): 67–73. DOI : 10.1002 / humu.21137 . PMC 2797835 . PMID 19877174 .  
  9. ^ a b Митчелл А.А., Цвик М.Э., Чакраварти А., Катлер Д.Д. и др. (2004). «Расхождения в уровнях подтверждения dbSNP и распределении частот аллелей из-за разной частоты ошибок генотипирования и паттернов». Биоинформатика . 20 (7): 1022–1032. DOI : 10.1093 / биоинформатики / bth034 . PMID 14764571 . 
  10. ^ a b Карлсон С.С., Эберле М.А., Ридер М.Дж., Смит Д.Д., Кругляк Л., Никерсон Д.А. и др. (2003). «Дополнительные SNP и анализ неравновесия по сцеплению необходимы для исследований ассоциации всего генома у людей». Генетика природы . 33 (4): 518–521. DOI : 10.1038 / ng1128 . PMID 12652300 . S2CID 11640599 .  
  11. ^ a b Катлер Д. Д., Цвик М. Е., Карраскильо М. М., Йон К. Т., Тобин К. П., Кашук С., Мэтьюз Д. Д., Шах Н. А., Элчлер Е. Е., Уоррингтон Д. А., Чакраварти А. и др. (2001). «Высокопроизводительное обнаружение вариаций и генотипирование с использованием микрочипов» . Геномные исследования . 11 (11): 1913–1925. DOI : 10.1101 / gr.197201 . PMC 311146 . PMID 11691856 .  
  12. ^ a b Габриэль SB; Шаффнер С.Ф .; Nguyen H; Мур Дж. М.; Рой Дж; Blumenstiel B; Хиггинс Дж; ДеФеличе М; Lochner A; Faggart M; Лю-Кордеро С. Н.; Rotimi C; Adeyemo A; Cooper R; Ward R; Lander ES; Дэли MJ; Альтшулер Д; и другие. (2003). «Структура гаплотипических блоков в геноме человека». Наука . 296 (5576): 2225–2229. DOI : 10.1126 / science.1069424 . PMID 12029063 . S2CID 10069634 .  
  13. ^ a b Рейх Д.Е., Габриэль С.Б., Альтшулер Д. и др. (2003). «Качество и полнота баз данных SNP». Генетика природы . 33 (4): 457–458. DOI : 10.1038 / ng1133 . PMID 12652301 . S2CID 6303430 .  
  14. ^ Дворник В., Лонг Дж. Р., Сюн Д.Х., Лю П.Й., Чжао Л.Дж., Шен Х, Чжан Ю.Й., Лю Ю.Дж., Роча-Санчер С., Сяо П., Рекер Р.Р., Дэн Х.В. (2004). «Текущие ограничения данных SNP из общественного достояния для изучения сложных расстройств: тест на десять генов-кандидатов на ожирение и остеопороз» . BMC Genetics . 5 : 4. DOI : 10.1186 / 1471-2156-5-4 . PMC 395827 . PMID 15113403 .  
  15. ^ де Баккер П.И.; Еленский Р; Pe'er I; Габриэль СБ; Дэли MJ; Альтшулер Д; и другие. (2005). «Эффективность и мощность в исследованиях генетических ассоциаций». Генетика природы . 37 (11): 1217–1223. DOI : 10.1038 / ng1669 . PMID 16244653 . S2CID 15464860 .  

Внешние ссылки [ править ]

  • dbSNP главная
  • NCBI