Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Энциклопедия элементов ДНК ( ENCODE ) является государственным научно - исследовательским проектом , который направлен на выявление функциональных элементов в геноме человека .

История [ править ]

Encode был запущен Национальным институтом исследования генома человека США (NHGRI) в сентябре 2003 года. [2] [3] [4] [5] [6] Проект ENCODE, задуманный как продолжение проекта «Геном человека» , направлен на то, чтобы идентифицировать все функциональные элементы в геноме человека .

В проекте участвует всемирный консорциум исследовательских групп, и данные, полученные в результате этого проекта, могут быть доступны через общедоступные базы данных. Четвертая фаза проекта началась в феврале 2017 года. [7]

Мотивация и значение [ править ]

По оценкам, у человека есть около 20 000 генов , кодирующих белок , что составляет около 1,5% ДНК в геноме человека. Основная цель проекта ENCODE - определить роль оставшегося компонента генома, большая часть которого традиционно считалась «мусором». Активность и экспрессия генов, кодирующих белок, можно модулировать с помощью регулома - множества элементов ДНК , таких как промоторы , регуляторные последовательности транскрипции, а также участки структуры хроматина и модификации гистонов . Считается, что изменения в регуляции активности генов могут нарушить белок.производство и клеточные процессы и приводят к болезни. Определение местоположения этих регуляторных элементов и того, как они влияют на транскрипцию генов, может выявить связи между вариациями экспрессии определенных генов и развитием заболевания. [8]

ENCODE также задуман как всеобъемлющий ресурс, позволяющий научному сообществу лучше понять, как геном может повлиять на здоровье человека, и «стимулировать разработку новых методов лечения для предотвращения и лечения этих заболеваний». [3]

Консорциум ENCODE [ править ]

Консорциум ENCODE состоит в основном из ученых, финансируемых Национальным институтом исследования генома человека США (NHGRI). Другие участники, вносящие вклад в проект, включаются в Консорциум или аналитическую рабочую группу.

Пилотная фаза состояла из восьми исследовательских групп и двенадцати групп , участвующих в ENCODE технология фаза развития. После 2007 года количество участников увеличилось до 440 ученых из 32 лабораторий по всему миру, поскольку пилотный этап был официально завершен. На данный момент консорциум состоит из разных центров, которые выполняют разные задачи.

ENCODE является членом Международного консорциума эпигенома человека (IHEC). [9]

Проект ENCODE [ править ]

ENCODE в настоящее время реализуется в четыре этапа: пилотный этап и этап разработки технологии, которые были начаты одновременно; [10] и этап производства. Четвертая фаза является продолжением третьей и включает функциональную характеристику и дальнейший интегративный анализ для энциклопедии.

Целью пилотного этапа было определение набора процедур, которые в сочетании можно было бы применять экономически эффективно и с высокой производительностью для точной и всесторонней характеристики больших участков генома человека.. Пилотный этап должен был выявить пробелы в текущем наборе инструментов для обнаружения функциональных последовательностей, а также, как предполагалось, выявить, были ли некоторые методы, использованные к тому времени, неэффективными или непригодными для крупномасштабного использования. Некоторые из этих проблем необходимо было решить на этапе разработки технологии ENCODE, целью которой была разработка новых лабораторных и вычислительных методов, которые улучшили бы нашу способность идентифицировать известные функциональные последовательности или открывать новые функциональные элементы генома. Результаты первых двух этапов определили лучший путь для анализа оставшихся 99% генома человека на экономически эффективном и всеобъемлющем этапе производства. [3]

Фаза I проекта ENCODE: экспериментальный проект [ править ]

На пилотной фазе были протестированы и сопоставлены существующие методы для тщательного анализа определенной части последовательности генома человека. Он был организован как открытый консорциум и объединил исследователей с разным опытом и знаниями для оценки относительных достоинств каждого из разнообразного набора методов, технологий и стратегий. Параллельная фаза разработки технологий проекта была направлена ​​на разработку новых высокопроизводительных методов для определения функциональных элементов. Целью этих усилий было определение набора подходов, которые позволили бы всесторонне идентифицировать все функциональные элементы в геноме человека. В рамках пилотного проекта ENCODE, Национальный исследовательский институт генома человека (NHGRI) оценили возможности различных подходов к расширению с целью анализа всего генома человека и поиска пробелов в способности идентифицировать функциональные элементы в геномной последовательности.

Процесс пилотного проекта ENCODE включал тесное взаимодействие между учеными-вычислителями и экспериментаторами для оценки ряда методов аннотирования генома человека. Набор регионов, представляющих примерно 1% (30 МБ) генома человека, был выбран в качестве цели для пилотного проекта и был проанализирован всеми исследователями пилотного проекта ENCODE. Все данные, полученные участниками ENCODE по этим регионам, были быстро опубликованы в общедоступных базах данных. [5] [11]

Выбор цели [ править ]

Для использования в пилотном проекте ENCODE были выбраны определенные области генома человека, соответствующие 30 МБ, примерно 1% от общего генома человека. Эти области послужили основой для тестирования и оценки эффективности и действенности разнообразного набора методов и технологий для обнаружения различных функциональных элементов в ДНК человека.

Перед тем, как приступить к выбору мишени, было решено, что 50% из 30 МБ последовательности будет выбрано вручную, а оставшаяся последовательность будет выбрана случайным образом. Двумя основными критериями для выбранных вручную областей были: 1) наличие хорошо изученных генов или других известных элементов последовательности и 2) наличие значительного количества сравнительных данных последовательностей. С помощью этого подхода вручную было выбрано в общей сложности 14,82 МБ последовательности, состоящей из 14 целей, размер которых варьируется от 500 КБ до 2 МБ.

Остальные 50% 30 Мб последовательности состояли из тридцати областей по 500 КБ, выбранных в соответствии со стратегией стратифицированной случайной выборки, основанной на плотности генов и уровне неэкзонной консервации. Решение использовать эти конкретные критерии было принято для обеспечения хорошей выборки геномных регионов, широко различающихся по содержанию генов и других функциональных элементов. Геном человека был разделен на три части - верхние 20%, средние 30% и нижние 50% - по каждой из двух осей: 1) плотность гена и 2) уровень неэкзонной консервации по отношению к ортологическому.геномная последовательность мыши (см. ниже), всего девять слоев. Из каждой страты для пилотного проекта были выбраны три случайных региона. Для тех слоев, которые были недостаточно представлены при ручном выборе, был выбран четвертый регион, в результате чего всего получилось 30 регионов. Для всех слоев была выделена «резервная» область для использования на случай непредвиденных технических проблем.

Более подробно критерии стратификации были следующими:

  • Ген плотность: Ген оценка плотности области была процент оснований покрыта либо генами в Ensembl базе данных, или с помощью человека мРНКа лучшего Blat ( BLAST -подобного инструмента выравнивания) выравниваний в браузере УСК геном базе данных.
  • Номера для exonic сохранения: регион был разделен на неперекрывающиеся подокнах 125 оснований. Подокна, которые показали менее 75% выравнивания оснований с последовательностью мыши, были отброшены. Для остальных подокон - процент с минимум 80% идентичностью оснований мышиным и который не соответствует генам Ensembl , сопоставлениям мРНК BLASTZ GenBank , прогнозам гена Fgenesh ++, прогнозам генов TwinScan, выравниванию сращенных EST или повторяющимся последовательностям ( ДНК ) использовался в качестве оценки неэкзонной консервации.

Вышеуказанные оценки были вычислены в пределах неперекрывающихся окон размером 500 т.п.н. готовой последовательности в геноме и использовались для присвоения каждого окна страте. [12]

Результаты пилотной фазы [ править ]

Пилотный этап был успешно завершен, и результаты были опубликованы в июне 2007 года в журнале Nature [5] и в специальном выпуске Genome Research ; [13] результаты, опубликованные в первой упомянутой статье, продвинули коллективные знания о функции генома человека в нескольких основных областях, включенных в следующие основные моменты: [5]

  • Геном человека транскрибируется повсеместно, так что большинство его оснований связано по крайней мере с одним первичным транскриптом, а многие транскрипты связывают дистальные области с установленными локусами, кодирующими белок .
  • Было идентифицировано много новых не кодирующих белок транскриптов, причем многие из этих перекрывающихся локусов, кодирующих белок, и другие локусы, расположенные в областях генома, ранее считались не транскрипционно «молчащими».
  • Были идентифицированы многочисленные ранее нераспознанные сайты начала транскрипции , многие из которых демонстрируют структуру хроматина и свойства связывания с последовательностью специфичных белков, аналогичные хорошо изученным промоторам .
  • Регуляторные последовательности, которые окружают сайты начала транскрипции, распределены симметрично, без смещения в сторону вышележащих участков.
  • Доступность хроматина и паттерны модификации гистонов в высокой степени позволяют предсказать как присутствие, так и активность сайтов старта транскрипции.
  • Дистальные гиперчувствительные сайты к DNaseI имеют характерные паттерны модификации гистонов, которые надежно отличают их от промоторов ; некоторые из этих дистальных участков имеют отметки, соответствующие функции изолятора.
  • Время репликации ДНК коррелирует со структурой хроматина.
  • В общей сложности 5% оснований в геноме можно с уверенностью идентифицировать как находящиеся под эволюционными ограничениями у млекопитающих; для приблизительно 60% этих ограниченных оснований есть доказательства функции на основе результатов экспериментальных анализов, выполненных на сегодняшний день.
  • Хотя существует общее совпадение между областями генома, идентифицированными как функциональные с помощью экспериментальных анализов, и участками, находящимися под эволюционными ограничениями, не все основания в этих экспериментально определенных областях демонстрируют доказательства ограничения.
  • Различные функциональные элементы сильно различаются по изменчивости их последовательностей в человеческой популяции и по вероятности нахождения в структурно изменчивой области генома .
  • Удивительно, но многие функциональные элементы, по-видимому, не ограничиваются эволюцией млекопитающих. Это предполагает возможность наличия большого количества нейтральных элементов, которые являются биохимически активными, но не приносят особой пользы организму. Этот пул может служить «складом» для естественного отбора, потенциально действуя как источник клоноспецифичных элементов и функционально консервативных, но неортологичных элементов между видами.

Проект фазы II ENCODE: проект фазы производства [ править ]

Изображение данных ENCODE в браузере генома UCSC . Это показывает несколько треков, содержащих информацию о регуляции генов . Ген слева ( ATP2B4 ) транскрибируется в большом количестве клеток (см. Также данные H3K4me1). Ген справа транскрибируется только в некоторых типах клеток, включая эмбриональные стволовые клетки.

В сентябре 2007 года Национальный институт исследования генома человека (NHGRI) начал финансирование производственной фазы проекта ENCODE. На этом этапе цель состояла в том, чтобы проанализировать весь геном и провести «дополнительные пилотные исследования». [14]

Как и в пилотном проекте, производство организовано в виде открытого консорциума. В октябре 2007 года NHGRI предоставила гранты на общую сумму более 80 миллионов долларов за четыре года. [15] Этап производства также включает в себя центр координации данных, центр анализа данных и усилия по развитию технологий. [16] В то время проект превратился в поистине глобальное предприятие, в котором участвовали 440 ученых из 32 лабораторий по всему миру. После завершения пилотного этапа проект «расширился» в 2007 году, получив огромную прибыль от секвенсорных машин нового поколения. И данных действительно было много; исследователи сгенерировали около 15 терабайт необработанных данных.

К 2010 году в рамках проекта ENCODE было создано более 1000 наборов данных по всему геному. Взятые вместе, эти наборы данных показывают, какие области транскрибируются в РНК, какие области, вероятно, контролируют гены, которые используются в конкретном типе клетки, и какие области связаны с широким спектром белков. Основными анализами, используемыми в ENCODE, являются ChIP-seq , гиперчувствительность к ДНКазе I , RNA-seq и анализы метилирования ДНК .

Результаты этапа производства [ править ]

В сентябре 2012 года в рамках проекта был опубликован гораздо более обширный набор результатов - 30 статей, опубликованных одновременно в нескольких журналах, в том числе шесть в Nature , шесть в Genome Biology и специальный выпуск с 18 публикациями Genome Research . [17]

Авторы описали создание и первоначальный анализ 1640 наборов данных, предназначенных для аннотирования функциональных элементов во всем геноме человека, интеграции результатов различных экспериментов в пределах типов клеток, связанных экспериментов с участием 147 различных типов клеток и всех данных ENCODE с другими ресурсами, такими как в качестве регионов-кандидатов из полногеномных ассоциативных исследований ( GWAS ) и регионов с ограниченными эволюционными возможностями . Вместе эти усилия выявили важные особенности организации и функции человеческого генома, которые были резюмированы в обзорном документе следующим образом: [18]

  1. Подавляющее большинство (80,4%) генома человека участвует по крайней мере в одном биохимическом событии, связанном с РНК и / или хроматином, по крайней мере в одном типе клеток. Большая часть генома лежит близко к регуляторному событию: 95% геном лежит в пределах 8 кб в ДНК - белковое взаимодействие (анализируемом с помощью связанного ЧИПА-Seq мотивов или DNAseI следов ), и 99% находится в пределах 1.7kb по меньшей мере одного биохимических событий, измеренных с помощью ENCODE.
  2. Специфические для приматов элементы, а также элементы без обнаруживаемых ограничений у млекопитающих в совокупности свидетельствуют об отрицательном отборе; таким образом, ожидается, что некоторые из них будут функциональными.
  3. Классификация генома на семь состояний хроматина предполагает начальный набор из 399,124 регионов с характеристиками, подобными энхансерам, и 70 292 регионов с характеристиками, подобными промоторам , а также сотни тысяч покоящихся регионов. Анализ с высоким разрешением дополнительно подразделяет геном на тысячи узких состояний с различными функциональными свойствами.
  4. Возможно количественно коррелировать образование и процессинг последовательности РНК как с метками хроматина, так и со связыванием фактора транскрипции (TF) на промоторах , что указывает на то, что функциональность промотора может объяснить большую часть вариаций экспрессии РНК.
  5. Многие некодирующие варианты в индивидуальных последовательностях генома лежат в функциональных областях, аннотированных ENCODE; это число, по крайней мере, не меньше тех, которые содержатся в генах, кодирующих белок.
  6. SNP, ассоциированные с заболеванием посредством GWAS , обогащены некодирующими функциональными элементами, большинство из которых находится в определенных ENCODE областях или рядом с ними, которые находятся за пределами генов, кодирующих белок . Во многих случаях фенотипы заболевания могут быть связаны с конкретным типом клеток или ТФ .

Самым поразительным открытием было то, что доля биологически активной ДНК человека значительно выше, чем даже самые оптимистичные предыдущие оценки. В обзорном документе Консорциум ENCODE сообщил, что его члены смогли назначить биохимические функции более чем 80% генома. [18] Было обнаружено, что многое из этого участвует в контроле уровней экспрессии кодирующей ДНК , которая составляет менее 1% генома.

Наиболее важные новые элементы «энциклопедии» включают:

  • Комплексная карта сайтов гиперчувствительности к ДНКазе 1, которые являются маркерами регуляторной ДНК, которая обычно расположена рядом с генами и позволяет химическим факторам влиять на их экспрессию. На карте было идентифицировано около 3 миллионов сайтов этого типа, включая почти все ранее известные и многие новые. [19]
  • Лексикон коротких последовательностей ДНК, которые образуют мотивы узнавания для ДНК-связывающих белков. Было обнаружено около 8,4 миллиона таких последовательностей, составляющих часть общей ДНК, примерно вдвое превышающую размер экзома . Было обнаружено, что тысячи промоторов транскрипции используют один стереотипный отпечаток из 50 пар оснований. [20]
  • Предварительный набросок архитектуры сети факторов транскрипции человека, то есть факторов, которые связываются с ДНК, чтобы стимулировать или ингибировать экспрессию генов. Сеть оказалась довольно сложной, с факторами, действующими на разных уровнях, а также с многочисленными петлями обратной связи различных типов. [21]
  • Измерение доли генома человека, которая может транскрибироваться в РНК. По оценкам, эта фракция в сумме составляет более 75% от общей ДНК, что намного выше, чем предыдущие оценки. Проект также начал характеризовать типы транскриптов РНК, которые генерируются в различных местах. [22]

Управление данными и анализ [ править ]

Сбор, хранение, интеграция и отображение созданных разнообразных данных является сложной задачей. Центр координации данных ENCODE (DCC) организует и отображает данные, созданные лабораториями консорциума, и обеспечивает соответствие данных определенным стандартам качества, когда они публикуются. Перед тем, как лаборатория представит какие-либо данные, DCC и лаборатория составляют соглашение о данных, в котором определяются экспериментальные параметры и связанные с ними метаданные. DCC проверяет входящие данные на соответствие соглашению. Это также гарантирует, что все данные аннотируются с использованием соответствующих онтологий . [23]Затем он загружает данные на тестовый сервер для предварительной проверки и координирует свои действия с лабораториями для организации данных в согласованный набор треков. Когда треки готовы, группа обеспечения качества DCC выполняет серию проверок целостности, проверяет, представлены ли данные в соответствии с другими данными браузера, и, что, возможно, наиболее важно, проверяет, что метаданные и сопровождающий описательный текст представлены в виде Это полезно для наших пользователей. Данные публикуются в общедоступном браузере генома UCSC.только после выполнения всех этих проверок. Параллельно данные анализируются Центром анализа данных ENCODE, консорциумом аналитических групп из различных производственных лабораторий и других исследователей. Эти группы разрабатывают стандартизированные протоколы для анализа данных из новых анализов, определения наилучшей практики, а также производить последовательный набор аналитических методов , такие как стандартизированный пик звонящие и генерация сигналов от выравнивания скоплений . [24]

Национальный исследовательский институт генома человека (NHGRI) идентифицировали закодировать как «проект ресурсов сообщества». Эта важная концепция была определена на международной встрече, состоявшейся в Ft. Лодердейлом в январе 2003 года в качестве исследовательского проекта, специально разработанного и реализованного для создания набора данных, реагентов или других материалов, основная полезность которых будет заключаться в качестве ресурса для широкого научного сообщества. Соответственно, политика раскрытия данных ENCODE предусматривает, что данные после проверки будут помещены в общедоступные базы данных и будут доступны для всех без ограничений. [24]

Другие проекты [ править ]

С продолжением третьего этапа Консорциум ENCODE стал участвовать в дополнительных проектах, цели которых выполняются параллельно проекту ENCODE. Некоторые из этих проектов были частью второй фазы ENCODE.

проект modENCODE [ править ]

Проект МОДЕЛЬНЫЙ организм ENCyclopedia Of DNA Elements (modENCODE) является продолжением оригинального проекта ENCODE, нацеленного на идентификацию функциональных элементов в выбранных модельных геномах организмов , в частности, Drosophila melanogaster и Caenorhabditis elegans . [25] Расширение модельных организмов позволяет проводить биологическую проверку расчетных и экспериментальных результатов проекта ENCODE, что трудно или невозможно сделать на людях. [25] Финансирование проекта modENCODE было объявлено Национальными институтами здравоохранения (NIH) в 2007 году и охватило несколько различных исследовательских институтов в США. [26] [27] Проект завершил свою работу в 2012 году.

В конце 2010 года консорциум modENCODE представил свой первый набор результатов с публикациями по аннотации и интегративному анализу геномов червей и мух в журнале Science . [28] [29] Данные из этих публикаций доступны на веб-сайте modENCODE. [30]

modENCODE был запущен как исследовательская сеть, и консорциум был сформирован из 11 основных проектов, разделенных на червяков и мух. Проекты включали следующее:

  • Структура гена
  • Профили экспрессии мРНК и нкРНК
  • Сайты связывания факторов транскрипции
  • Модификации и замена гистонов
  • Структура хроматина
  • Инициирование и время репликации ДНК
  • Копировать вариант номера. [31]

modERN [ править ]

MODERN, сокращение от энциклопедии модельных организмов регуляторных сетей, ответвление от проекта modENCODE. Проект объединил группы C. elegans и Drosophila и сфокусирован на идентификации дополнительных сайтов связывания факторов транскрипции соответствующих организмов. Проект начался одновременно с Фазой III ENCODE и планируется завершить в 2017 году. [32] На сегодняшний день в рамках проекта было проведено 198 экспериментов [33], из которых около 500 других экспериментов представлены и в настоящее время обрабатываются DCC.

Геномика генной регуляции [ править ]

В начале 2015 года NIH запустил программу «Геномика генной регуляции» (GGR). [34] Целью программы, рассчитанной на три года, является изучение генных сетей и путей в различных системах организма с надеждой на дальнейшее понимание механизмов, контролирующих экспрессию генов. Хотя проект ENCODE отделен от GGR, ENCODE DCC размещает данные GGR на портале ENCODE. [35]

Дорожная карта [ править ]

В 2008 году NIH основал Консорциум по картированию эпигеномики дорожной карты, целью которого было создание «общедоступного ресурса эпигеномных данных человека для стимулирования фундаментальных исследований в области биологии и болезней». [36] В феврале 2015 года консорциум выпустил статью под названием «Интегративный анализ 111 эталонных эпигеномов человека», которая выполнила цель консорциума. Консорциум интегрировал информацию и аннотированные регулирующие элементы по 127 эталонным эпигеномам, 16 из которых были частью проекта ENCODE. [37] Данные для проекта Roadmap можно найти на портале Roadmap или на портале ENCODE.

проект fruitENCODE [ править ]

FruitENCODE: энциклопедия элементов ДНК для созревания плодов - это проект ENCODE для растений, целью которого является создание наборов данных для метилирования ДНК, модификаций гистонов, DHS, экспрессии генов, связывания факторов транскрипции для всех видов плодов с мясистой структурой на разных стадиях развития. Данные о пререлизе можно найти на портале fruitENCODE.

Критика проекта [ править ]

Хотя консорциум заявляет, что они далеки от завершения проекта ENCODE, многие отзывы на опубликованные статьи и освещение в новостях, сопровождавших выпуск, были положительными. Редакторы Nature и авторы ENCODE «... сотрудничали в течение многих месяцев, чтобы произвести самый большой всплеск и привлечь внимание не только исследовательского сообщества, но и широкой общественности». [38] Заявление проекта ENCODE о том, что 80% генома человека выполняет биохимическую функцию [18], было быстро подхвачено популярной прессой, которая описала результаты проекта как ведущие к смерти мусорной ДНК . [39] [40]

Однако вывод о том, что большая часть генома является «функциональным», подвергался критике на том основании, что в проекте ENCODE использовалось либеральное определение «функционального», а именно, все, что транскрибируется, должно быть функциональным. К такому выводу пришли, несмотря на широко распространенное мнение, основанное на оценках консервации генома из сравнительной геномики, что многие элементы ДНК, такие как псевдогены , которые транскрибируются, тем не менее, нефункциональны. Кроме того, проект КОДИРОВАНИЯ подчеркнул чувствительность по специфичности , ведущей возможно к обнаружению многих ложных срабатываний . [41] [42] [43]Несколько произвольный выбор клеточных линий и факторов транскрипции, а также отсутствие соответствующих контрольных экспериментов были дополнительными серьезными критиками ENCODE, поскольку случайная ДНК имитирует ENCODE-подобное «функциональное» поведение. [44]

В ответ на некоторые критические замечания другие ученые утверждали, что широко распространенная транскрипция и сплайсинг, наблюдаемая в геноме человека непосредственно при биохимическом тестировании, является более точным индикатором генетической функции, чем оценки сохранности генома, поскольку все оценки сохранения относительны и трудно поддаются оценке. выровнять из-за невероятных различий в размерах генома даже близкородственных видов, он частично тавтологичен, и эти оценки не основаны на прямом тестировании функциональности генома. [45] [46] Оценки сохранности могут использоваться для получения подсказок для идентификации возможных функциональных элементов в геноме, но они не ограничивают и не ограничивают общее количество функциональных элементов, которые могут существовать в геноме. [46]Более того, большая часть генома, который оспаривается критиками, по-видимому, участвует в эпигенетической регуляции, такой как экспрессия генов, и, по-видимому, необходим для развития сложных организмов. [45] [47] Результаты ENCODE не обязательно были неожиданными, поскольку увеличение атрибуции функциональности было предсказано предыдущими десятилетиями исследований. [45] [47]Кроме того, другие отмечали, что проект ENCODE с самого начала имел масштаб, основанный на поиске биомедицинских функциональных элементов в геноме, а не эволюционных функциональных элементов, которые не обязательно являются одним и тем же, поскольку эволюционный отбор недостаточен и не необходим для установления функция. Это очень полезный прокси для соответствующих функций, но несовершенный и не единственный. [48]

В ответ на жалобы на определение слова «функция» некоторые отметили, что ENCODE действительно определяет, что оно означает, и поскольку сфера применения ENCODE заключается в поиске биомедицинских функциональных элементов в геноме, то заключение проекта следует интерпретировать » утверждая, что 80% генома участвует в соответствующей биохимической деятельности, которая, скорее всего, будет иметь причинную роль в явлениях, которые считаются важными для биомедицинских исследований ». [48] Проблема функции больше связана с различиями в определениях, чем с силой проекта, который заключался в предоставлении данных для дальнейших исследований биохимической активности небелковых кодирующих частей ДНК. Хотя определения важны, а наука ограничена рамками языка, похоже, что ENCODE был хорошо принят для своей цели, поскольку теперь существует больше исследовательских работ, использующих данные ENCODE, чем статей, спорящих по определению функции, по состоянию на март 2013 г. . [49]Эван Бирни, один из исследователей ENCODE, прокомментировал, что «функция» прагматически использовалась для обозначения «специфической биохимической активности», которая включала различные классы анализов: РНК, «широкие» модификации гистонов, «узкие» модификации гистонов, сайты гиперчувствительности к ДНКазе, транскрипция. Пики фактора ChIP-seq, следы ДНКазы, мотивы, связанные с фактором транскрипции, и экзоны. [50]

В 2014 году исследователи ENCODE отметили, что в литературе функциональные части генома в предыдущих исследованиях определялись по-разному в зависимости от используемых подходов. Для идентификации функциональных частей генома человека использовались три общих подхода: генетические подходы (основанные на изменениях фенотипа), эволюционные подходы (основанные на сохранении) и биохимические подходы (основанные на биохимическом тестировании и используемые ENCODE). . У всех трех есть ограничения: генетические подходы могут упускать функциональные элементы, которые физически не проявляются в организме, эволюционные подходы имеют трудности с использованием точного выравнивания многовидовых последовательностей, поскольку геномы даже близкородственных видов значительно различаются, и с биохимическими подходами, хотя и с высокой воспроизводимостью,биохимические сигнатуры не всегда автоматически указывают на функцию. Они пришли к выводу, что в отличие от эволюционных и генетических данных, биохимические данные предлагают ключи к разгадке как молекулярной функции, выполняемой лежащими в основе элементов ДНК, так и типов клеток, в которых они действуют, и, в конечном итоге, все три подхода могут использоваться взаимодополняющим образом для выявления областей, которые быть функциональным в человеческой биологии и болезни. Кроме того, они отметили, что биохимические карты, предоставленные ENCODE, были наиболее ценными в проекте, поскольку они служат отправной точкой для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.биохимические данные дают ключ к разгадке как молекулярной функции, выполняемой нижележащими элементами ДНК, так и типов клеток, в которых они действуют, и, в конечном счете, все три подхода могут быть использованы в качестве взаимодополняющих способов для идентификации областей, которые могут быть функциональными в биологии человека и болезни. Кроме того, они отметили, что биохимические карты, предоставленные ENCODE, были наиболее ценными в проекте, поскольку они служат отправной точкой для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.биохимические данные дают ключ к разгадке как молекулярной функции, выполняемой нижележащими элементами ДНК, так и типов клеток, в которых они действуют, и, в конечном счете, все три подхода могут быть использованы в качестве взаимодополняющих способов для идентификации областей, которые могут быть функциональными в биологии человека и болезни. Кроме того, они отметили, что биохимические карты, предоставленные ENCODE, были наиболее ценными в проекте, поскольку они служат отправной точкой для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.они отметили, что биохимические карты, предоставленные ENCODE, были наиболее ценными вещами проекта, поскольку они обеспечивают отправную точку для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.они отметили, что биохимические карты, предоставленные ENCODE, были наиболее ценными вещами проекта, поскольку они обеспечивают отправную точку для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.[46]

Проект также подвергался критике за его высокую стоимость (в общей сложности ~ 400 миллионов долларов) и поддержку большой науки, которая отнимает деньги у высокопродуктивных исследований, инициированных исследователями. [51] Пилотный проект ENCODE обошелся примерно в 55 миллионов долларов; Масштабирование составило около 130 миллионов долларов США, а Национальный институт исследования генома человека СШАNHGRI может выделить до 123 миллионов долларов на следующий этап. Некоторые исследователи утверждают, что надежной отдачи от этих инвестиций еще предстоит увидеть. В литературе предпринимались попытки найти статьи, в которых ENCODE играет значительную роль, и с 2012 года было опубликовано 300 статей, 110 из которых поступили из лабораторий, не финансируемых ENCODE. Дополнительная проблема заключается в том, что ENCODE - это не уникальное имя, предназначенное исключительно для проекта ENCODE, поэтому слово «кодировать» встречается во многих литературах по генетике и геномике. [52]

Еще одна серьезная критика заключается в том, что результаты не оправдывают количества времени, потраченного на проект, и что сам проект по сути незавершенный. Хотя его часто сравнивают с Human Genome Project (HGP) и даже называют следующим шагом HGP, HGP имеет четкую конечную точку, которой в настоящее время не хватает ENCODE.

Авторы, кажется, сочувствуют научным опасениям и в то же время пытаются оправдать свои усилия, давая интервью и разъясняя детали ENCODE не только научной общественности, но и средствам массовой информации. Они также утверждают, что прошло более полувека от осознания того, что ДНК является наследственным материалом жизни, до последовательности человеческого генома, так что их план на следующее столетие заключался в том, чтобы по-настоящему понять саму последовательность. [52]

FactorBook [ править ]

Анализ данных связывания факторов транскрипции, сгенерированный проектом ENCODE, в настоящее время доступен в доступном в Интернете репозитории FactorBook. [53] По сути, Factorbook.org - это база данных на основе Wiki для данных о связывании факторов транскрипции, созданных консорциумом ENCODE. В первом выпуске Factorbook содержится:

  • 457 наборов данных ChIP-seq по 119 TF в ряде линий клеток человека
  • Средние профили модификаций гистонов и расположение нуклеосом вокруг ТФ-связывающих областей
  • Мотивы последовательностей обогащены регионами, а также предпочтениями по расстоянию и ориентации между сайтами мотивов. [54]

См. Также [ править ]

  • GENCODE
  • SIMAP
  • Функциональная геномика
  • Проект "Геном человека"
  • Проект 1000 геномов
  • Международный проект HapMap
  • Список биологических баз данных

Ссылки [ править ]

  1. ^ Hong EL, Sloan CA, Chan ET, Davidson JM, Malladi VS, Strattan JS, Hitz BC, Gabdank I, Narayanan AK, Ho M, Lee BT, Rowe LD, Dreszer TR, Roe GR, Podduturi NR, Tanaka F, Hilton Дж. А., Черри Дж. М. (январь 2016 г.). «Принципы организации метаданных в координационном центре данных ENCODE. (Обновление 2016 г.)» . База данных . 2016 : baw001. DOI : 10,1093 / базы данных / baw001 . PMC 4792520 . PMID 26980513 .  
  2. ^ Ренея BJ, Клайн МС, Розенблюм КР, Dreszer ТР, уроки К, парикмахера П., Мейер Л., Слоан СА, Malladi В.С., Роскин КМ, Suh ВВ, Хинрикс А.С., Клоусон Н, Цвейг С., Киркап В, Фуджита П.А., Rhead Б., Смит К.Е., Поль А., Кун Р.М., Карольчик Д., Хаусслер Д., Кент В.Дж. (январь 2011 г.). «КОДИРУЙТЕ данные полного генома в браузере генома UCSC (обновление 2011 г.)» . Nucleic Acids Res. 39 (выпуск базы данных): D871–5. DOI : 10.1093 / NAR / gkq1017 . PMC 3013645 . PMID 21037257 .   
  3. ^ a b c Консорциум проекта ENCODE (2004). «Проект ENCODE (Энциклопедия элементов ДНК)» . Наука.
  4. ^ Консорциум проектов ENCODE (2011). Беккер ПБ (ред.). «Руководство пользователя Энциклопедии элементов ДНК (ENCODE)» . PLOS Биология . 9 (4): e1001046. DOI : 10.1371 / journal.pbio.1001046 . PMC 3079585 . PMID 21526222 .  
  5. ^ a b c d Консорциум проекта ENCODE, Бирни Е. , Стаматояннопулос Дж. А. , Датта А. , Гиго Р., Джингерас Т. Р., Маргулис Е. Х., Вен З., Снайдер М., Дермитзакис Е. Т. и др. (2007). «Идентификация и анализ функциональных элементов в 1% генома человека в рамках пилотного проекта ENCODE» . Природа . 447 (7146): 799–816. Bibcode : 2007Natur.447..799B . DOI : 10,1038 / природа05874 . PMC 2212820 . PMID 17571346 .  
  6. ^ Гиго R, Flicek Р, Абриль ДФ, Reymond А, Лагард Дж, Denoeud Ж, Antonarakis S, Ashburner М, Баич В.Б., Birney Е, Каштелу R, Eyras Е, UCLA С, Gingeras TR, борона Дж, Хаббард Т, Льюис SE, Риз MG (2006). "EGASP: Проект оценки аннотации генома человека ENCODE" . Геномная биология . 7 : S2.1–31. DOI : 10.1186 / ГБ-2006-7-s1-s2 . PMC 1810551 . PMID 16925836 .  
  7. ^ "Проект ENCODE: Энциклопедия элементов ДНК" . www.genome.gov . Проверено 13 мая 2016 .
  8. ^ Saey, Тина Hesman (6 октября 2012). «Команда выпускает продолжение генома человека» . Общество науки и общественности . Проверено 18 октября 2012 года .
  9. ^ GmbH, Eurice. «Соединенные Штаты Америки · IHEC» . ihec-epigenomes.org . Проверено 18 июля 2017 .
  10. ^ "ENCODE Project" . www.genome.gov . Архивировано из оригинала на 2016-05-17 . Проверено 16 мая 2016 .
  11. ^ Персонал программы ENCODE (2012-10-18). «ENCODE: пилотный проект: обзор» . Национальный институт исследования генома человека.
  12. ^ Персонал программы ENCODE (2012-02-19). «ENCODE: пилотный проект: выбор цели» . Национальный институт исследования генома человека.
  13. ^ Вайншток GM (2007). «ENCODE: больше возможностей для генома» . Геномные исследования . 17 (6): 667–668. DOI : 10.1101 / gr.6534207 . PMID 17567987 . 
  14. ^ "Genome.gov | Проекты ENCODE и modENCODE" . Проект ENCODE: энциклопедия элементов ДНК . Национальный институт исследования генома человека США. 2011-08-01 . Проверено 5 августа 2011 .
  15. ^ "Национальный институт исследования генома человека - Организация" . Альманах NIH . Национальные институты здравоохранения США . Проверено 5 августа 2011 .
  16. ^ "Genome.gov | ENCODE участников и проекты" . Проект ENCODE: энциклопедия элементов ДНК . Национальный институт исследования генома человека США. 2011-08-01 . Проверено 5 августа 2011 .
  17. Ecker JR, Bickmore WA, Barroso I, Pritchard JK, Gilad Y, Segal E (сентябрь 2012 г.). «Геномика: объяснение ENCODE» . Природа . 489 (7414): 52–5. Bibcode : 2012Natur.489 ... 52E . DOI : 10.1038 / 489052a . PMID 22955614 . S2CID 5366257 .  
  18. ^ a b c Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (сентябрь 2012 г.). «Интегрированная энциклопедия элементов ДНК в геноме человека» . Природа . 489 (7414): 57–74. Bibcode : 2012Natur.489 ... 57T . DOI : 10.1038 / nature11247 . PMC 3439153 . PMID 22955616 .  
  19. ^ Thurman RE, Rynes E, Humbert R, Vierstra J, Maurano MT, Haugen E, Sheffield NC, Stergachis AB, Wang H и др. (Сентябрь 2012 г.). «Доступный хроматиновый ландшафт генома человека» . Природа . 489 (7414): 75–82. Bibcode : 2012Natur.489 ... 75T . DOI : 10.1038 / nature11232 . PMC 3721348 . PMID 22955617 .  
  20. ^ Неф С, Виерстра Дж, Стергачис А.Б., Рейнольдс А.П., Хауген Е, Верно Б., Турман Р.Е., Джон С., Сандстрем Р. и др. (Сентябрь 2012 г.). «Обширный человеческий регуляторный лексикон, закодированный в следах транскрипционных факторов» . Природа . 489 (7414): 83–90. Bibcode : 2012Natur.489 ... 83N . DOI : 10.1038 / nature11212 . PMC 3736582 . PMID 22955618 .  
  21. ^ Герштейн МБ, Kundaje А, Харихаран М, Landt С.Г., Ян К. К., Ченг С, Му XJ, Хурана Е, Rozowsky Дж, и др. (Сентябрь 2012 г.). «Архитектура регулирующей сети человека, полученная из данных ENCODE» . Природа . 489 (7414): 91–100. Bibcode : 2012Natur.489 ... 91G . DOI : 10.1038 / nature11245 . PMC 4154057 . PMID 22955619 .  
  22. ^ Джебали С., Дэвис К.А., Меркель А., Добин А., Лассманн Т., Мортазави А., Танцер А., Лагард Дж., Лин В. и др. (Сентябрь 2012 г.). «Пейзаж транскрипции в клетках человека» . Природа . 489 (7414): 101–8. Bibcode : 2012Natur.489..101D . DOI : 10.1038 / nature11233 . PMC 3684276 . PMID 22955620 .  
  23. ^ Маллади В.С., Эриксон Д.Т., Поддутури Н.Р., Роу Л.Д., Чан И.Т., Дэвидсон Дж. М., Хитц BC, Хо М, Ли BT, Миясато С., Роу Г. Р., Симисон М., Слоан, Калифорния, Страттан Дж. С., Танака Ф., Кент В. Дж., Черри JM, Hong EL (2015). «Применение онтологии и использование в ENCODE DCC» . База данных (Оксфорд) . 2015 . DOI : 10,1093 / базы данных / bav010 . PMC 4360730 . PMID 25776021 .  
  24. ^ а б Брайан Дж. Рэйни; и другие. (2010-10-30). «КОДИРУЙТЕ данные полного генома в браузере генома UCSC (обновление 2011 г.)» . Nucleic Acids Res . Исследования нуклеиновых кислот. 39 : D871–5. DOI : 10.1093 / NAR / gkq1017 . PMC 3013645 . PMID 21037257 .  
  25. ^ a b "Проект modENCODE: Модельная энциклопедия элементов ДНК (modENCODE)" . Сайт NHGRI . Проверено 13 ноября 2008 .
  26. ^ "Участники и проекты modENCODE" . Сайт NHGRI . Проверено 13 ноября 2008 .
  27. ^ «Лаборатория наук о жизни Беркли награждена грантами NIH за исследования плодовой мухи и нематод» . Веб-сайт Национальной лаборатории Лоуренса Беркли . 2007-05-14 . Проверено 13 ноября 2008 .
  28. ^ Герштейн М.Б., Лу ZJ, Ван Ностранд Е.Л., Ченг С, Arshinoff Б. И., Лю Т, Ип К.Ю., Robilotto R, Rechtsteiner А, и др. (2010). «Интегративный анализ генома Caenorhabditis elegans в рамках проекта modENCODE» . Наука . 330 (6012): 1775–1787. Bibcode : 2010Sci ... 330.1775G . DOI : 10.1126 / science.1196914 . PMC 3142569 . PMID 21177976 .  
  29. ^ Консорциум modENCODE, Рой С., Эрнст Дж, Харченко П.В., Херадпур П., Негре Н., Итон М.Л., Ландолин Дж. М., Бристоу Калифорния, Ма Л. и др. (2010). «Идентификация функциональных элементов и регуляторных цепей с помощью Drosophila modENCODE» . Наука . 330 (6012): 1787–1797. Bibcode : 2010Sci ... 330.1787R . DOI : 10.1126 / science.1198374 . PMC 3192495 . PMID 21177974 .  
  30. ^ "MODENCODE" . Национальный институт исследования генома человека.
  31. ^ Celniker S (2009-06-11). «Раскрытие секретов генома» . Природа . 459 (7249): 927–930. Bibcode : 2009Natur.459..927C . DOI : 10.1038 / 459927a . PMC 2843545 . PMID 19536255 .  
  32. ^ https://projectreporter.nih.gov/project_info_details.cfm?aid=8566279&icde=19088980
  33. ^ https://www.encodeproject.org/search/?type=Experiment&award.project=modERN&status=released
  34. ^ https://www.genome.gov/27559930/2015-release-nih-grants-aim-to-decipher-the-language-of-gene-regulation/
  35. ^ https://www.encodeproject.org/search/?type=Experiment&award.project=GGR
  36. ^ "Проект эпигеномики дорожной карты - Дом" .
  37. ^ Кундаже, Аншул; Meuleman, Wouter; Эрнст, Джейсон; Биленький, Миша; Йен, Анджела; Херави-Муссави, Алиреза; Керадпур, Пуйя; Чжан, Чжичжуо; Ван, Цзяньжун; Циллер, Майкл Дж .; Амин, Вирен; Уитакер, Джон В .; Шульц, Мэтью Д .; Ward, Lucas D .; Саркар, Абхишек; Куон, Джеральд; Sandstrom, Ричард С .; Eaton, Matthew L .; Ву, И-Цзе; Pfenning, Andreas R .; Ван, Синьчэнь; Клаусницер, Мелина; Лю, Япин; Коарфа, Кристиан; Харрис, Р. Алан; Шореш, Ноам; Эпштейн, Чарльз Б.; Гьонеска, Элизабета; Люнг, Дэнни; и другие. (2015). «Интегративный анализ 111 эталонных эпигеномов человека» . Природа . 518 (7539): 317–330. Bibcode : 2015Natur.518..317. . doi :10.1038 / природа14248 . PMC  4530010 . PMID  25693563 .
  38. ^ Махер В (2012-09-06). «Борьба с ENCODE и барахлом» . Новостной блог . Издательская группа "Природа".
  39. ^ Колата G (2012-09-05). «Вдали от мусора, ДНК темная материя имеет решающее значение для здоровья» . Нью-Йорк Таймс .
  40. ^ Грегори TR (2012-09-06). «Машина для ажиотажа в СМИ ENCODE» . Геномикрон.
  41. ^ Граур D, Чжэн Y, Цена N, Азеведо RB, Zufall RA, Elhaik E (2013). «О бессмертии телевизоров:« функция »в геноме человека согласно безэволюционному евангелию ENCODE» . Genome Biol Evol . 5 (3): 578–90. DOI : 10.1093 / GbE / evt028 . PMC 3622293 . PMID 23431001 .  
  42. ^ Moran LA (2013-03-15). «Пески: О значении слова« функция » » . Sandwalk.
  43. ^ Грегори TR (2013-04-11). «Критика ENCODE в рецензируемых журналах.« Геномикрон » . Геномикрон.
  44. Перейти ↑ White MA, Myers CA, Corbo JC, Cohen BA (июль 2013 г.). «Массивно параллельный анализ энхансера in vivo показывает, что высоко локальные особенности определяют цис-регуляторную функцию пиков ChIP-seq» . Proc. Natl. Акад. Sci. США . 110 (29): 11952–7. Bibcode : 2013PNAS..11011952W . DOI : 10.1073 / pnas.1307449110 . PMC 3718143 . PMID 23818646 . Краткое содержание - thefinchandpea.com .  
  45. ^ a b c Мэттик Дж. С., Динджер МЭ (2013). «Степень функциональности в геноме человека» . Журнал HUGO . 7 (1): 2. DOI : 10,1186 / 1877-6566-7-2 . PMC 4685169 . 
  46. ^ а б в Келлис М. и др. (2014). «Определение функциональных элементов ДНК в геноме человека» . Proc. Natl. Акад. Sci. США . 111 (17): 6131–8. Bibcode : 2014PNAS..111.6131K . DOI : 10.1073 / pnas.1318948111 . PMC 4035993 . PMID 24753594 .  
  47. ^ a b Кэри, Несса (2015). Мусорная ДНК: путешествие по темной материи генома . Издательство Колумбийского университета. ISBN 9780231170840.
  48. ^ a b Жермен, Пьер-Люк; Ратти, Эмануэле; Боэм, Федерико (ноябрь 2014 г.). «Мусор или функциональная ДНК? КОДИРОВАНИЕ и функциональное противоречие». Биология и философия . 29 (6): 807–831. DOI : 10.1007 / s10539-014-9441-3 . S2CID 84480632 . 
  49. Редакционная статья Nature (14 марта 2013 г.). «Форма и функция» . Природа . 495 (7440): 141–142. DOI : 10.1038 / 495141b . PMID 23495393 . 
  50. ^ Birney, Ewan (5 сентября 2012). «ENCODE: Мои собственные мысли» . Блог Юэна: биоинформатик в целом .
  51. ^ Тимпсон Т (2013-03-05). «Обсуждение ENCODE: Дэн Граур, Майкл Эйзен» . Мендельспод.
  52. ^ a b Maher B (сентябрь 2012 г.). «ENCODE: человеческая энциклопедия» . Природа . 489 (7414): 46–8. DOI : 10.1038 / 489046a . PMID 22962707 . 
  53. ^ FactorBook
  54. ^ Ван Дж (2012-11-29). «Factorbook.org: база данных на основе Wiki для данных о связывании факторов транскрипции, созданная консорциумом ENCODE» . Исследования нуклеиновых кислот . 41 (Проблема с базой данных): D171-6. DOI : 10.1093 / NAR / gks1221 . PMC 3531197 . PMID 23203885 .  

Внешние ссылки [ править ]

  • Официальный веб-сайт
  • Проект ENCODE в Национальном исследовательском институте генома человека
  • Энциклопедия элементов ДНК в браузере генома UCSC
  • Проект ENCODE / GENCODE в институте Wellcome Trust Sanger
  • Вводное руководство, спонсируемое ENCODE
  • FactorBook
  • MODENCODE
  • ENCODE темы Explorer at the Nature (журнал)