Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

«Гена , расщепленного» теории с помощью Перианнан Сенапати теория о происхождении интронов , длиной не-кодирующих последовательностей в эукариотических генов , которые вмешиваются в экзоны . [1] [2] [3] Теория утверждает, что случайность первичных последовательностей ДНК допускает только небольшие (<600 п.н.) открытые рамки считывания , и что важные структуры интронов и регуляторные последовательности происходят из стоп-кодонов . В этой структуре, ориентированной сначала на интроны, сплайсосомный аппарат и ядро ​​эволюционировали из-за необходимости объединить эти ORF (теперь «экзоны») в более крупные белки, и что бактериальные гены без интронов являются менее предковыми, чем расщепленные эукариотические гены.

Теория предлагает решения ключевых вопросов, касающихся расщепленных эукариотических генов, включая экзоны, интроны, сплайсинговые соединения, точки ветвления и всю архитектуру расщепленных генов, на основе происхождения расщепленных генов из случайных генетических последовательностей. Он также предлагает возможные решения проблемы происхождения сплайсосомного аппарата, ядерной границы и эукариотической клетки. Эта теория привела к созданию алгоритма Shapiro-Senapathy , который обеспечивает методологию обнаружения сайтов сплайсинга, экзонов и расщепленных генов в эукариотической ДНК и который является основным методом обнаружения мутаций сайтов сплайсинга в генах, вызывающих сотни заболеваний в тысячах случаев. пациенты по всему миру.

Подробности того, как была сформулирована теория расщепленного гена, и как эта теория подтверждается опубликованной литературой во всех аспектах генетических элементов эукариотического гена, представлены ниже.

Теория расщепленного гена требует отдельного происхождения всех видов эукариот. Это также требует, чтобы более простые прокариоты произошли от эукариот. Это полностью противоречит научному консенсусу об образовании эукариотических клеток при эндосимбиозе бактерий. В 1994 году Сенапати написал книгу об этом аспекте своей теории - Независимое рождение организмов.Он предположил, что все эукариотические геномы были сформированы отдельно в первичном пуле. Голландский биолог Герт Кортофф раскритиковал теорию, поставив различные проблемы, которые нельзя объяснить теорией независимого происхождения. Он также указал, что различные эукариоты нуждаются в родительской заботе, и назвал это «проблемой загрузки». Не могло быть ни одного предка, нуждающегося в родительской заботе. Кортофф отмечает, что большая часть эукариот - паразиты. Теория сенапатии потребовала бы совпадения, чтобы объяснить их существование. [1] [2] Теория сенапатии также не может объяснить убедительные доказательства общего происхождения (например, гомология, универсальный генетический код, эмбриология, летопись окаменелостей) [4].

Фон [ править ]

Транскрипция, сплайсинг и трансляция эукариотического гена.  Эукариотический ген состоит из промотора, экзонов, интронов и сайта присоединения поли-А. Он транскрибируется в первичный РНК-транскрипт (или пре-мРНК) ферментом РНК-полимеразой. Эта РНК подвергается процессу редактирования сплайсосомой для точного удаления интронов и соединения экзонов, в результате чего образуется молекула мРНК. Эта мРНК содержит полную кодирующую последовательность без каких-либо прерывающих стоп-кодонов, которая транслируется рибосомой в белок, кодируемый геном. На рисунке длины интронов очень короткие, но на самом деле они чрезвычайно длинные, в среднем в 20 раз длиннее экзонов, а часто даже намного длиннее, примерно до 500 000 оснований. Экзоны обычно очень короткие, в среднем ~ 120 оснований и максимум ~ 600 оснований. [1] Также показан пример структуры белка ( PDB ID: 2VUX ) для рибонуклеотидредуктазы человека, субъединица M2 B.

Гены всех организмов, кроме бактерий, состоят из коротких кодирующих белки участков ( экзонов ), прерванных длинными последовательностями, которые вмешиваются в кодирующие последовательности ( интроны ). [1] [2] Когда ген экспрессируется, его последовательность ДНК копируется в последовательность «первичной РНК» ферментом РНК-полимеразой . Затем «сплайсосомный» аппарат физически удаляет интроны из РНК-копии гена в процессе сплайсинга, оставляя только непрерывно связанную серию экзонов, которая становится «информационной» РНК (мРНК). Эта мРНК теперь «читается» другим клеточным механизмом, называемым « рибосомой»., ”Для производства кодируемого белка. Таким образом, хотя интроны физически не удаляются из гена, последовательность гена читается так, как будто интронов никогда не существовало.

Экзоны обычно очень короткие, с размером ок. средняя длина около 120 оснований (например, в генах человека). Длина интронов широко варьируется от 10 до 500 000 оснований в геноме (например, в геноме человека), но длина экзонов имеет верхний предел около 600 оснований в большинстве эукариотических генов. Поскольку экзоны кодируют последовательности белков, они очень важны для клетки, но составляют лишь ~ 2% последовательностей генов. Интроны, напротив, составляют 98% последовательностей генов, но, по-видимому, имеют мало важных функций в генах, за исключением таких функций, как содержание энхансерных последовательностей и в редких случаях регуляторов развития. [5] [6]

До тех пор, пока Филип Шарп [7] [8] из Массачусетского технологического института и Ричард Робертс [9] затем в Лабораториях Колд-Спринг-Харбор (в настоящее время в Биолабораториях Новой Англии) не обнаружили интроны [10] в генах эукариот в 1977 году, считалось, что кодирующие последовательность всех генов всегда была на одном участке, ограниченном одной длинной открытой рамкой считывания (ORF). Открытие интронов стало большим сюрпризом для ученых, и тут же возник вопрос о том, как, почему и когда интроны попали в эукариотические гены.

Вскоре стало очевидно, что типичный эукариотический ген во многих местах прерывается интронами, деля кодирующую последовательность на множество коротких экзонов. Также удивительным было то, что интроны были очень длинными, даже в сотни тысяч оснований (см. Таблицу ниже). Эти результаты также вызвали вопросы о том, почему много интронов встречается в гене (например, ~ 312 интронов встречается в человеческом гене TTN), почему они очень длинные и почему экзоны очень короткие.

Также было обнаружено, что сплайсосомный аппарат был очень большим и сложным с ~ 300 белками и несколькими молекулами SnRNA. Итак, вопросы распространяются и на происхождение сплайсосомы. Вскоре после открытия интронов стало очевидно, что соединения между экзонами и интронами с обеих сторон демонстрируют специфические последовательности, которые сигнализируют аппарату сплайсосомы о точном положении основания для сплайсинга. Как и почему возникли эти сигналы сращивания стыков, было еще одним важным вопросом, на который нужно было ответить.

Ранние предположения [ править ]

Поразительное открытие интронов и расщепленной генной архитектуры эукариотических генов было драматичным и положило начало новой эре эукариотической биологии. Вопрос о том, почему эукариотические гены имеют целостную архитектуру, почти сразу же вызвал в литературе спекуляции и дискуссии.

Форд Дулиттл из Университета Далхаузи опубликовал в 1978 году статью, в которой выразил свои взгляды. [11] Он заявил, что большинство молекулярных биологов предполагало, что геном эукариот произошел из «более простого» и более «примитивного» прокариотического генома, скорее похожего на геном Escherichia coli.. Однако этот тип эволюции потребовал бы, чтобы интроны были введены в смежные кодирующие последовательности бактериальных генов. Относительно этого требования Дулиттл сказал: «Чрезвычайно трудно представить, как информативно нерелевантные последовательности могут быть введены в уже существующие структурные гены без вредных эффектов». Он заявил: «Я хотел бы утверждать, что геном эукариот, по крайней мере, в том аспекте его структуры, который проявляется как« гены по частям », на самом деле является примитивной исходной формой».

Джеймс Дарнелл из Университета Рокфеллера также выразил подобные взгляды в 1978 году [12]. Он заявил: «Различия в биохимии образования матричной РНК у эукариот по сравнению с прокариотами настолько глубоки, что предполагают, что последовательная эволюция прокариотических и эукариотических клеток кажется маловероятной. Недавно обнаруженные несмежные последовательности в ДНК эукариот, которые кодируют информационную РНК, могут отражать древнее, а не новое распределение информации в ДНК и то, что эукариоты эволюционировали независимо от прокариот ».

Однако в явной попытке примириться с идеей о том, что РНК предшествовала ДНК в эволюции, и с концепцией трех эволюционных линий архей , бактерий и эукарий, и Дулиттл, и Дарнелл отклонились от своих первоначальных предположений в статье, которую они вместе опубликовали в 1985. [13] Они предположили, что предок всех трех групп организмов, прогенот, 'имел структуру «гены в частях», из которой произошли все три линии. Они предположили, что на доклеточной стадии присутствуют примитивные гены РНК с интронами, которые обратно транскрибируются в ДНК и образуют прогенот. Бактерии и археи произошли от прогенота, потеряв интроны, а «уркариот» развился из него, сохранив интроны. Позже эукариот произошел от уркариота, образовав ядро ​​и получив митохондрии от бактерий. Затем многоклеточные организмы произошли от эукариот.

Эти авторы смогли предсказать, что различия между прокариотами и эукариотами были настолько глубокими, что эволюция от прокариотов к эукариотам была несостоятельной, и что оба они имели разное происхождение. Однако, кроме предположений о том, что гены доклеточной РНК должны иметь интроны, они не касались ключевых вопросов о том, откуда, как и почему интроны могли возникать в этих генах или какова их материальная основа. Не было объяснений, почему экзоны короткие, а интроны длинные, как возникают сплайсинговые соединения, что означают структура и последовательность сплайсинговых соединений и почему эукариотические геномы такие большие.

Примерно в то же время, когда Дулиттл и Дарнелл предположили, что интроны в эукариотических генах могут быть древними, Колин Блейк [14] из Оксфордского университета и Уолтер Гилберт [15] [16]из Гарвардского университета (который получил Нобелевскую премию за изобретение метода секвенирования ДНК вместе с Фредом Сэнгером) независимо опубликовали свои взгляды на происхождение интронов. По их мнению, интроны возникли как спейсерные последовательности, которые сделали возможной рекомбинацию и перетасовку экзонов, кодирующих различные функциональные домены, с целью развития новых генов. Таким образом, новые гены были собраны из модулей экзонов, которые кодировали функциональные домены, складывающиеся области или структурные элементы из ранее существовавших генов в геноме предкового организма, тем самым развивая гены с новыми функциями. Они не указали, как возникли экзоны, представляющие структурные мотивы белков, или интроны, которые не кодируют белки. Кроме того, даже по прошествии многих летОбширный анализ нескольких тысяч белков и генов показал, что только в очень редких случаях гены проявляют предполагаемый феномен перетасовки экзонов.[17] [18] Кроме того, несколько молекулярных биологов подвергли сомнению предложение о перетасовке экзонов с чисто эволюционной точки зрения как по методологическим, так и по концептуальным причинам, и в конечном итоге эта теория не материализовалась.

Гипотеза [ править ]

Примерно в то же время, когда были открыты интроны, Senapathy задавалась вопросом, как могли возникнуть сами гены. Он предположил, что для возникновения любого гена в среде пребиотической химии должны быть генетические последовательности (РНК или ДНК). Основной вопрос, который он задал, заключался в том, как последовательности, кодирующие белок, могли возникнуть из первичных последовательностей ДНК на начальном этапе развития самых первых клеток.

Чтобы ответить на этот вопрос, он сделал два основных предположения: (i) до того, как могла появиться самовоспроизводящаяся клетка, молекулы ДНК были синтезированы в первичном бульоне путем случайного добавления 4 нуклеотидов без помощи матриц и (ii) нуклеотид последовательности, кодирующие белки, были выбраны из этих ранее существовавших случайных последовательностей ДНК в первичном бульоне, а не путем конструирования из более коротких кодирующих последовательностей. Он также предположил, что кодоны должны были быть установлены до происхождения первых генов. Если первичная ДНК действительно содержала случайные нуклеотидные последовательности, он спросил: существует ли верхний предел длины кодирующей последовательности, и если да, то играет ли этот предел решающую роль в формировании структурных особенностей генов в самом начале происхождение генов?

Его логика была следующей. Средняя длина белков в живых организмах, включая эукариотические и бактериальные организмы, составляла ~ 400 аминокислот. Однако как у эукариот, так и у бактерий существовали гораздо более длинные белки, даже длиннее, чем от 10 000 до ~ 30 000 аминокислот. [19]Таким образом, кодирующая последовательность из тысяч оснований существовала на одном участке в бактериальных генах. В отличие от этого, кодирующая последовательность эукариот существовала только в коротких сегментах экзонов размером прибл. 120 оснований независимо от длины белка. Если длины ORF кодирующей последовательности в случайных последовательностях ДНК были такими же длинными, как и в бактериальных организмах, то возможно, что в случайной ДНК могли встречаться непрерывно длинные кодирующие гены. Об этом не было известно, так как распределение длин ORF в случайной последовательности ДНК никогда ранее не исследовалось.

Поскольку в компьютере можно было генерировать случайные последовательности ДНК, Сенапати думал, что может задавать эти вопросы и проводить свои эксперименты на компьютере. Более того, когда он начал изучать этот вопрос, в базе данных Национального фонда биомедицинских исследований (NBRF) в начале 1980-х было достаточно информации о последовательностях ДНК и белков.

Проверка гипотезы [ править ]

Происхождение интронов и структура расщепленного гена [ править ]

Кластеризация стоп-кодонов в случайной последовательности ДНК приводит к редким ORF, которые являются длинными.  Отрицательное экспоненциальное частотное распределение длин ORF в случайной последовательности указывает на то, что в линейной последовательности, чем короче ORF, они встречаются чаще, и чем длиннее ORF, тем реже они встречаются. Таким образом, существует тенденция кластеризации стоп-кодонов в большинстве мест в последовательности, и, следовательно, более длинные ORF встречаются реже, даже в пределах верхней максимальной длины ~ 600 оснований. Сенапатия рассудила, что сегменты кодирующей последовательности из доступных длинных ORF могут быть выбраны в качестве экзонов, тогда как промежуточные последовательности с кластерами стоп-кодонов могут быть выделены как интроны, подлежащие удалению из первичного транскрипта РНК, что приведет к расщеплению структуры гена.

Senapathy сначала проанализировала распределение длин ORF в компьютерных случайных последовательностях ДНК. Удивительно, но это исследование показало, что на самом деле существует верхний предел около 200 кодонов (600 оснований) для длин ORF. Самая короткая ORF (длина нулевого основания) была наиболее частой. При увеличении длины ORF их частота логарифмически уменьшалась, достигая почти нуля примерно на 600 основаниях. Когда была построена вероятность длин ORF в случайной последовательности, это также показало, что вероятность увеличения длин ORF снижалась экспоненциально и уменьшалась максимум до примерно 600 оснований. Из этого «отрицательного экспоненциального» распределения длин ORF было обнаружено, что большинство ORF были чрезвычайно короче, чем даже максимум в 600 оснований.

Отрицательное экспоненциальное распределение длин ORF в случайной последовательности ДНК и в последовательностях ДНК эукариот.  Senapathy обнаружила, что стоп-кодоны встречаются с очень высокой частотой в случайной последовательности ДНК, поскольку из 64 кодонов существуют 3 стоп-кодона, что приводит к очень коротким открытым рамкам считывания (ORF) со средней длиной ~ 60 оснований. Он также обнаружил, что длины ORF распределены экспоненциально отрицательно. Этот график показывает, что частота нулевой длины ORF (последовательные стоп-кодоны, встречающиеся тандемно) является наиболее частой из всех длин ORF, частота длины ORF одного кодона (3 основания) является следующей по частоте и так далее. Частота более длинных ORF уменьшается экспоненциально и достигает нулевой частоты при длине ORF ~ 600 оснований, что означает, что ORF длиннее 600 оснований не возникает.[1] Удивительно, но график для последовательностей эукариотической ДНК был почти точно таким же, как и для случайных последовательностей ДНК.

Это открытие было неожиданным, потому что кодирующая последовательность для средней длины белка 400 AA (с ~ 1200 оснований кодирующей последовательности) и более длинных белков из тысяч AA (требующих> 10000 оснований кодирующей последовательности) не могла бы встречаться на отрезке в случайном порядке. последовательность. Если бы это было так, то типичный ген с непрерывной кодирующей последовательностью не мог бы происходить из случайной последовательности. Таким образом, единственный возможный способ того, чтобы любой ген мог происходить из случайной последовательности, состоял в том, чтобы разделить кодирующую последовательность на более короткие сегменты и выбрать эти сегменты из коротких ORF, доступных в случайной последовательности, а не увеличивать длину ORF за счет устранения множества последовательно расположенных встречающиеся стоп-кодоны. Этот процесс выбора коротких сегментов кодирующих последовательностей из доступных ORF для создания длинной ORF приведет к расщеплению структуры гена.

Если эта гипотеза верна, последовательности ДНК эукариот должны иметь доказательства этого. Когда Senapathy построила график распределения длин ORF в последовательностях эукариотической ДНК, график был удивительно похож на график для случайной последовательности ДНК. Этот график также представляет собой отрицательное экспоненциальное распределение, которое заканчивается максимум на 600 основаниях. Это открытие было удивительным, потому что экзоны из эукариотических генов также имели максимальную длину около 600 оснований, [1] [20] [3], что точно совпадало с максимальной длиной ORF, наблюдаемой как в случайной последовательности ДНК, так и в последовательности эукариотической ДНК.

Таким образом, расщепленные гены произошли из случайных последовательностей ДНК путем выбора лучшего из коротких кодирующих сегментов (экзонов) и соединения их в процессе сплайсинга. Последовательности промежуточных интронов были остатками случайных последовательностей и, таким образом, были предназначены для удаления с помощью сплайсосомы. Эти результаты показали, что расщепленные гены могли возникнуть из случайных последовательностей ДНК с экзонами и интронами, которые встречаются в современных эукариотических организмах. Нобелевский лауреат Маршалл Ниренберг , который расшифровал кодоны, заявил, что эти результаты убедительно показали, что теория расщепленных генов для происхождения интронов и расщепленной структуры генов должна быть верной. [1] New Scientist освещал эту публикацию в «Длинном объяснении интронов». [21]

Известный молекулярный биолог доктор Колин Блейк из Оксфордского университета, который в 1979 году предложил гипотезу Гилберта-Блейка относительно происхождения интронов (см. Выше), заявил в своей публикации 1987 года под названием «Белки, экзоны и молекулярная эволюция», что расщепление сенапатии теория генов всесторонне объяснила происхождение структуры расщепленного гена. Кроме того, он заявил, что он объяснил несколько ключевых вопросов, включая происхождение механизма сращивания: [14]

«Недавняя работа Senapathy в применении к РНК всесторонне объясняет происхождение сегрегированной формы РНК на кодирующие и некодирующие области. Это также указывает на то, почему механизм сплайсинга был разработан в начале изначальной эволюции. Он обнаружил, что распределение длин рамок считывания в случайной нуклеотидной последовательности точно соответствует наблюдаемому распределению размеров эукариотических экзонов. Они были ограничены областями, содержащими стоп-сигналы, сообщения о прекращении построения полипептидной цепи, и, таким образом, были некодирующими областями или интронами. Таким образом, наличие случайной последовательности было достаточным для создания у изначального предка сегрегированной формы РНК, наблюдаемой в структуре эукариотического гена. Более того, случайное распределение также показывает отсечку на 600 нуклеотидах,что предполагает, что максимальный размер для раннего полипептида составлял 200 остатков, что опять же наблюдается в максимальном размере эукариотического экзона. Таким образом, в ответ на эволюционное давление, направленное на создание более крупных и сложных генов, фрагменты РНК были соединены вместе с помощью механизма сплайсинга, который удалял интроны. Следовательно, раннее существование как интронов, так и сплайсинга РНК у эукариот представляется весьма вероятным с простой статистической основы. Эти результаты также согласуются с линейной зависимостью, обнаруженной между количеством экзонов в гене для конкретного белка и длиной полипептидной цепи ».фрагменты РНК были соединены вместе с помощью механизма сплайсинга, который удалял интроны. Следовательно, раннее существование как интронов, так и сплайсинга РНК у эукариот представляется весьма вероятным с простой статистической основы. Эти результаты также согласуются с линейной зависимостью, обнаруженной между количеством экзонов в гене для конкретного белка и длиной полипептидной цепи ».фрагменты РНК были соединены вместе с помощью механизма сплайсинга, который удалял интроны. Следовательно, раннее существование как интронов, так и сплайсинга РНК у эукариот представляется весьма вероятным с простой статистической основы. Эти результаты также согласуются с линейной зависимостью, обнаруженной между количеством экзонов в гене для конкретного белка и длиной полипептидной цепи ».

Подтверждение теории расщепления генов фактическими последовательностями ДНК человеческих генов.Теория расщепленного гена предсказывает, что все три стоп-кодона должны присутствовать с высокой частотой в каждой из трех рамок считывания (RF), что приведет к очень коротким открытым рамкам считывания (ORF). Он также предсказывает, что экзоны генов будут находиться внутри этих коротких ORF во всех трех RF, интроны будут длинными, и что длина экзонов будет ограничена длиной ORF. Эти предсказания точно подтверждаются в последовательностях ДНК большинства эукариотических генов. Показаны два примера генов (FLJ35894 и ADCY1) из генома человека. Все экзоны в каждом гене очень короткие, а большинство интронов очень длинные. В каждом гене экзоны (короткие желтые прямоугольники) ограничены очень короткими ORF, которые встречаются в последовательности ДНК. Кроме того, стоп-кодоны встречаются на концах экзонов, которые фактически являются частью последовательностей сплайсинговых соединений.  


Происхождение стыков [ править ]

Происхождение последовательностей сплайс-стыков от стоп-кодонов. [1] [2] [3](A) Молекулярный аппарат, который выбирает экзоны расщепленного гена из случайной первичной последовательности ДНК, должен быть способен искать стоп-кодоны (метки) для идентификации областей без стоп-кодонов (в копии первичной РНК, не показано), которые являются ORF. При этом первый встреченный стоп-кодон будет отмечен как начало интрона. Этот процесс приведет к наличию стоп-кодона в начале интронов. Иногда в качестве экзона выбирается вся открытая рамка чтения, из-за чего конец предыдущего интрона будет иметь стоп-кодон. (B) Начало и конец интрона являются частями «последовательностей сплайсинговых соединений», которые сигнализируют о точной точке сплайсинга для сплайсосомного аппарата. Стоп-кодоны показаны на красном фоне.

Согласно теории расщепленного гена, экзон будет определяться ORF. Это потребует создания механизма распознавания ORF. Поскольку ORF определяется непрерывно кодирующей последовательностью, ограниченной стоп-кодонами, эти концы стоп-кодонов должны распознаваться этой системой распознавания экзон-интрон. Эта система могла бы определять экзоны по присутствию стоп-кодона на концах ORF, которые должны быть включены в концы интронов и устранены в процессе сплайсинга. Таким образом, интроны должны содержать стоп-кодон на своих концах, который будет частью последовательностей сплайсинговых соединений.

Если эта гипотеза верна, расщепленные гены современных живых организмов должны содержать стоп-кодоны точно на концах интронов. Когда Senapathy проверила эту гипотезу на сплайсинговых соединениях эукариотических генов, было удивительно, что подавляющее большинство сплайсинговых соединений действительно содержало стоп-кодон на концах интронов, прямо за пределами экзонов. Фактически было обнаружено, что эти стоп-кодоны образуют «каноническую» последовательность сплайсинга GT: AG, причем три стоп-кодона встречаются как часть сильных консенсусных сигналов. Таким образом, основная теория расщепления генов для происхождения интронов и структуры расщепленных генов привела к пониманию того, что сплайсинговые соединения происходят из стоп-кодонов. [2]

Все три стоп-кодона (TGA, TAA и TAG) были обнаружены после одного основания (G) в начале интронов. Эти стоп-кодоны показаны в консенсусном каноническом донорском сплайсинге как AG: GT (A / G) GGT, где TAA и TGA являются стоп-кодонами, и дополнительный TAG также присутствует в этом положении. Помимо кодона CAG, на концах интронов был обнаружен только TAG, который является стоп-кодоном. Каноническое сплайсинговое соединение акцептора показано как (C / T) AG: GT, в котором TAG является стоп-кодоном. Эти консенсусные последовательности ясно показывают присутствие стоп-кодонов на концах интронов, граничащих с экзонами во всех эукариотических генах, таким образом обеспечивая сильное подтверждение теории расщепленного гена.  Маршалл Ниренбергснова заявил, что эти наблюдения полностью подтверждают теорию расщепленных генов для происхождения последовательностей сплайсинговых соединений из стоп-кодонов, который был рецензентом этой статьи. [2] New Scientist освещал эту публикацию в журнале «Экзоны, интроны и эволюция». [22]

Вскоре после открытия интронов доктором. Филиппу Шарпу и Ричарду Робертсу стало известно, что мутации внутри сплайсинговых соединений могут приводить к заболеваниям. Сенапатия показала, что мутации в основаниях стоп-кодонов (канонических основаниях) вызывают больше заболеваний, чем мутации в неканонических основаниях. [1]

Последовательность точек ветвления (лариата) [ править ]

Промежуточным этапом в процессе сплайсинга эукариотической РНК является формирование лариатической структуры. Он закреплен на остатке аденозина в интроне между 10 и 50 нуклеотидами выше 3'-сайта сплайсинга. Короткая консервативная последовательность (последовательность точки ветвления) действует как сигнал распознавания для сайта образования лариата. В процессе сплайсинга эта консервативная последовательность ближе к концу интрона образует лариатную структуру с началом интрона. [23] Заключительный этап процесса сплайсинга происходит, когда два экзона соединяются и интрон высвобождается в виде лариатной РНК. [24]

Несколько исследователей обнаружили последовательности точек ветвления у различных организмов [23], включая дрожжи, человека, плодовую муху, крысу и растения. Senapathy обнаружила, что во всех этих последовательностях точки ветвления кодон, заканчивающийся на аденозине в точке ветвления , последовательно является стоп-кодоном. Что интересно, два из трех стоп-кодонов (TAA и TGA) почти всегда встречаются в этой позиции.


Эти открытия привели к выводу, что Senapathy предположил, что сигнал точки ветвления происходит от стоп-кодонов. Обнаружение того, что два разных стоп-кодона (TAA и TGA) встречаются в сигнале лариата с точкой ветвления в качестве третьего основания стоп-кодонов, подтверждает это предположение. Поскольку точка ветвления лариата происходит на последнем аденине стоп-кодона, возможно, что сплайсосомный аппарат, возникший для устранения многочисленных стоп-кодонов из первичной последовательности РНК, создал сигнал вспомогательной стоп-кодоновой последовательности в качестве последовательность лариата, чтобы помочь его функции сращивания. [2]

Считается, что малая ядерная РНК U2, обнаруженная в комплексах сплайсинга, способствует сплайсингу, взаимодействуя с последовательностью лариата. [25] Комплементарные последовательности как для последовательности лариата, так и для акцепторного сигнала присутствуют в сегменте всего из 15 нуклеотидов в РНК U2. Кроме того, РНК U1 была предложена в качестве ориентира при сплайсинге для идентификации точного соединения сплайсинга донора посредством комплементарного спаривания оснований. Таким образом, консервативные области РНК U1 включают последовательности, комплементарные стоп-кодонам. Эти наблюдения позволили Senapathy предсказать, что стоп-кодоны действуют в происхождении не только сигналов сплайс-соединения и сигнала лариата, но и некоторых малых ядерных РНК.

Регуляторные последовательности генов [ править ]

Доктор Сенапати также предположил, что последовательности, регулирующие экспрессию генов (последовательности промотора и сайта присоединения поли-A), также могли происходить из стоп-кодонов. Консервативная последовательность AATAAA существует почти в каждом гене на небольшом расстоянии ниже конца сообщения, кодирующего белок, и служит сигналом для добавления поли (A) в копию мРНК гена. [26] Этот сигнал последовательности поли (А) содержит стоп-кодон, ТАА. Последовательность, расположенная вскоре после этого сигнала, которая считается частью полного сигнала поли (A), также содержит стоп-кодоны TAG и TGA.

Промоторы, зависимые от РНК-полимеразы II эукариот, могут содержать ТАТА-бокс (консенсусная последовательность ТАТААА), который содержит стоп-кодон ТАА. Бактериальные промоторные элементы при -10 оснований демонстрируют TATA-бокс с консенсусом TATAAT (который содержит стоп-кодон TAA), а на -35 основаниях демонстрирует консенсус TTGACA (содержащий стоп-кодон TGA). Таким образом, на эволюцию всего механизма процессинга РНК, по-видимому, повлияло слишком частое появление стоп-кодонов в последовательности ДНК, что сделало стоп-кодоны фокальными точками для процессинга РНК.

Стоп-кодоны являются ключевыми частями каждого генетического элемента эукариотического гена [ править ]

Стоп-кодоны являются ключевыми частями всех важных генетических элементов в генах эукариот.  Ключевыми генетическими элементами эукариотических генов являются промоторы, донорные и акцепторные сигналы соединения сплайсинга, сигналы лариат (точки ветвления) и сайты присоединения поли-А. Обнаружено, что основным компонентом каждого из этих генетических элементов является стоп-кодон.

Работа доктора Сенапати, основанная на его теории расщепленного гена, раскрыла, что стоп-кодоны являются ключевыми частями в каждом генетическом элементе эукариотических генов . Таблица и рисунок выше показывают, что ключевые части основных элементов промотора, сигнала лариата (точки ветвления), сигналов сплайсинга донора и акцептора и сигнала присоединения поли-A состоят из одного или нескольких стоп-кодонов. Этот вывод является убедительным подтверждением теории расщепленных генов, согласно которой основной причиной парадигмы полного расщепления генов является происхождение расщепленных генов из случайных последовательностей ДНК, причем для их определения природа использовала случайное распределение чрезвычайно высокой частоты стоп-кодонов. генетические элементы.

Почему экзоны короткие, а интроны длинные? [ редактировать ]

Исследования, основанные на теории расщепленных генов, проливают свет на другие основные вопросы экзонов и интронов. Экзоны эукариотобычно короткие (экзоны человека в среднем ~ 120 оснований и могут быть всего лишь 10 оснований), а интроны обычно очень длинные (в среднем ~ 3000 оснований и могут составлять несколько сотен тысяч оснований), например гены RBFOX1, CNTNAP2, PTPRD и DLG2. Senapathy дала правдоподобный ответ на эти вопросы, который до сих пор остается единственным объяснением. Основываясь на теории расщепленных генов, экзоны эукариотических генов, если они происходят из случайных последовательностей ДНК, должны соответствовать длинам ORF из случайной последовательности и, возможно, должны быть около 100 оснований (близко к средней длине ORF в случайной последовательности) . Последовательности генома живых организмов, например человека, имеют точно такую ​​же среднюю длину в 120 оснований для экзонов и самые длинные экзоны из 600 оснований (за некоторыми исключениями),которая имеет ту же длину, что и самая длинная случайная ORF.[1] [2] [3] [20]

Если бы расщепленные гены возникли в случайных последовательностях ДНК, то интроны были бы длинными по нескольким причинам. Стоп-кодоны встречаются в кластерах, что приводит к многочисленным последовательным очень коротким ORF, а более длинные ORF, которые можно определить как экзоны, будут более редкими. Кроме того, наилучшие параметры кодирующей последовательности для функциональных белков должны быть выбраны из длинных ORF в случайной последовательности, что может встречаться редко. Кроме того, комбинация донорных и акцепторных последовательностей сплайсинговых соединений в пределах коротких отрезков сегментов кодирующей последовательности, которые будут определять границы экзонов, будет редко встречаться в случайной последовательности. Эти комбинированные причины сделали бы интроны очень длинными по сравнению с длиной экзонов.

Почему эукариотические геномы большие? [ редактировать ]

Эта работа также объясняет, почему геномы очень большие, например, геном человека с тремя миллиардами оснований, и почему только очень небольшая часть генома человека (~ 2%) кодирует белки и другие регуляторные элементы. [27] [28] Если бы расщепленные гены произошли из случайных первичных последовательностей ДНК, они бы содержали значительное количество ДНК, которая была бы представлена ​​интронами. Кроме того, геном, собранный из случайной ДНК, содержащей расщепленные гены, также будет включать межгенную случайную ДНК. Таким образом, зарождающиеся геномы, происходящие из случайных последовательностей ДНК, должны были быть большими, независимо от сложности организма.

Наблюдение за тем, что геномы нескольких организмов, таких как геном лука (~ 16 миллиардов оснований [29] ) и саламандры (~ 32 миллиарда оснований [30] ), намного больше, чем у человека (~ 3 миллиарда оснований [31]). [32] ), но организмы не более сложны, чем человек, что подтверждает теорию расщепленного гена. Более того, данные о том, что геномы некоторых организмов меньше, хотя они содержат по существу такое же количество генов, что и человеческий, например, C. elegans (размер генома ~ 100 миллионов оснований, ~ 19000 генов) [33 ] и Arabidopsis thaliana (размер генома ~ 125 миллионов оснований, ~ 25 000 генов), [34]добавляет поддержку этой теории. Теория расщепленных генов предсказывает, что интроны в расщепленных генах в этих геномах могут быть «сокращенной» (или удаленной) формой по сравнению с более крупными генами с длинными интронами, что приводит к сокращению геномов. [1] [20] Фактически, исследователи недавно предположили, что эти меньшие геномы на самом деле являются уменьшенными геномами, что добавляет поддержку теории расщепления генов. [35]

Происхождение сплайсосомного аппарата и эукариотического ядра [ править ]

Исследования Senapathy также обращаются к происхождению сплайсосомного аппарата, который вырезает интроны из РНК-транскриптов генов. Если бы расщепленные гены произошли из случайной ДНК, то интроны стали бы ненужной, но неотъемлемой частью эукариотических генов вместе со сплайсинговыми соединениями на их концах. Сплайсосомный аппарат будет необходим для их удаления и для того, чтобы короткие экзоны могли быть линейно сплайсированы вместе в виде непрерывно кодирующей мРНК, которая может транслироваться в полный белок. Таким образом, теория расщепленных генов показывает, что весь сплайсосомный аппарат возник из-за происхождения расщепленных генов из случайных последовательностей ДНК и удаления ненужных интронов. [1] [2]

Как отмечалось выше, Колин Блейк, автор теории происхождения интронов и экзонов Гилберта-Блейка, заявляет: «Недавняя работа Senapathy в применении к РНК всесторонне объясняет происхождение сегрегированной формы РНК на кодирующие и некодирующие. регионы. Это также указывает на то, почему механизм сплайсинга был разработан в начале изначальной эволюции ». [14]

Сенапатия также предложила правдоподобное механистическое и функциональное объяснение возникновения эукариотического ядра, что является важным вопросом в биологии. [1] [2]Если бы транскрипты расщепленных генов и сплайсированных мРНК присутствовали в клетке без ядра, рибосомы попытались бы связываться как с несращенным первичным РНК-транскриптом, так и с сплайсированной мРНК, что привело бы к молекулярному хаосу. Если граница возникла, чтобы отделить процесс сплайсинга РНК от трансляции мРНК, можно избежать этой проблемы молекулярного хаоса. Это именно то, что находится в эукариотических клетках, где сплайсинг первичного транскрипта РНК происходит внутри ядра, а сплайсированная мРНК транспортируется в цитоплазму, где рибосомы переводят их в белки. Граница ядра обеспечивает четкое разделение сплайсинга первичной РНК и трансляции мРНК.

Происхождение эукариотической клетки [ править ]

Таким образом, эти исследования привели к возможности того, что первичная ДНК с по существу случайной последовательностью дала начало сложной структуре расщепленных генов с экзонами, интронами и сплайсинговыми соединениями. Они также предсказывают, что клетки, несущие эти расщепленные гены, должны быть комплексными с ядерной цитоплазматической границей и должны иметь сплайсосомный аппарат. Таким образом, вполне возможно, что самая ранняя клетка была сложной и эукариотической. [1] [2] [3] [20] Удивительно, но результаты обширных сравнительных геномных исследований нескольких организмов за последние 15 лет убедительно показывают, что самые ранние организмы могли быть очень сложными и эукариотическими, и могли содержать сложные белки, [36] [37] [38] [39][40] [41] [42] в точности так, как предсказывает теория сенапатии.

Сплайсосома - это очень сложный механизм внутри эукариотической клетки, содержащий ~ 200 белков и несколько SnRNP. В своей статье [43] « Сложная сплайсосомная организация предков современных эукариот.», - заявляют молекулярные биологи Лесли Коллинз и Дэвид Пенни:« Мы начинаем с гипотезы о том, что ... сплайсосома усложнялась на протяжении всей эволюции эукариот. Однако изучение распределения сплайсосомных компонентов показывает, что сплайсосома не только присутствовала у эукариотического предка, но также содержала большинство ключевых компонентов, обнаруженных у современных эукариот. ... последний общий предок современных эукариот, кажется, демонстрирует большую часть молекулярной сложности, наблюдаемой сегодня ». Это предполагает, что самые ранние эукариотические организмы были очень сложными и содержали сложные гены и белки, как и предсказывает теория расщепленных генов.

Происхождение бактериальных генов [ править ]

Основываясь на теории расщепленных генов, только гены, расщепленные на короткие экзоны и длинные интроны с максимальной длиной экзона ~ 600 оснований, могли встречаться в случайных последовательностях ДНК. Гены с длинными непрерывными кодирующими последовательностями длиной в тысячи оснований и длиной от 10 000 до 90 000 оснований, которые встречаются во многих бактериальных организмах [19], были практически невозможны. Однако бактериальные гены могли возникнуть из расщепленных генов в результате потери интронов, что, по-видимому, является единственным способом получить длинные кодирующие последовательности. Это также лучший способ, чем увеличение длины ORF с очень коротких случайных ORF до очень длинных ORF путем специального удаления стоп-кодонов путем мутации. [1] [2] [3]

Происхождение бактериальных генов от расщепленных генов.  Расщепленные гены современных эукариот с очень короткими экзонами (средняя длина 120 оснований и максимум ~ 600 оснований), прерванные длинными интронами, чрезвычайно вероятны в случайных последовательностях ДНК по причинам, описанным в разделе Происхождение интронов и расщепленный ген. структура , выше. Напротив, длинные, непрерывно кодирующие бактериальные гены (которые могут иметь длину от 10 000 оснований и до 90 000 оснований) без интронов практически невозможно встретить в случайных последовательностях. Таким образом, единственный способ возникновения бактериальных генов - это удалить интроны из расщепленных генов, которые встречаются в случайных последовательностях ДНК, и произвести непрерывно кодирующие гены. Пример белка с его трехмерной структурой взят из базы данных PDB ( ID: 1UNF).

Согласно теории расщепленного гена, этот процесс потери интрона мог произойти из-за пребиотической случайной ДНК. Эти непрерывно кодирующие гены могут быть плотно организованы в бактериальных геномах без каких-либо интронов и быть более упорядоченными. Согласно Senapathy, ядерная граница, необходимая для клетки, содержащей расщепленные гены в ее геноме (см. Раздел « Происхождение ядра эукариотической клетки» выше), не требуется для клетки, содержащей только непрерывно кодирующие гены. Таким образом, у бактериальных клеток не образовалось ядро. Основываясь на теории расщепленных генов, эукариотические геномы и бактериальные геномы могли независимо возникнуть из расщепленных генов в первичных случайных последовательностях ДНК.

Алгоритм Шапиро-Сенапатии [ править ]

Основываясь на теории расщепленных генов, Senapathy разработала вычислительные алгоритмы для обнаружения донорных и акцепторных сайтов сплайсинга, экзонов и полного расщепленного гена в геномной последовательности. Он разработал метод матрицы веса положения (PWM), основанный на частоте четырех оснований в согласованных последовательностях донора и акцептора в различных организмах, чтобы идентифицировать сайты сплайсинга в данной последовательности. Кроме того, он сформулировал первый алгоритм для поиска экзонов, основанный на требовании, чтобы экзоны содержали донорную последовательность (на 5'-конце) и акцепторную последовательность (на 3'-конце), а также ORF, в которой должен встречаться экзон. , и еще один алгоритм для поиска полного расщепленного гена. Эти алгоритмы все вместе известны как алгоритм Шапиро-Сенапатии (S&S). [44] [45]

Этот алгоритм Shapiro-Senapathy помогает идентифицировать мутации сплайсинга, вызывающие многочисленные заболевания и побочные реакции на лекарства. [44] [45] Используя алгоритм S&S, ученые определили мутации и гены, которые вызывают многочисленные виды рака, наследственные расстройства, иммунодефицитные заболевания и неврологические расстройства (см. Здесьподробнее). Он все чаще используется в клинической практике и исследованиях не только для поиска мутаций в известных болезнетворных генах у пациентов, но и для открытия новых генов, вызывающих различные заболевания. Кроме того, он используется для определения скрытых сайтов сплайсинга и определения механизмов, с помощью которых мутации в них могут влиять на нормальный сплайсинг и приводить к различным заболеваниям. Он также используется для решения различных вопросов фундаментальных исследований человека, животных и растений.

Широкое использование этого алгоритма в биологических исследованиях и клинических приложениях по всему миру добавляет доверия к теории расщепленного гена, поскольку этот алгоритм произошел от теории расщепленного гена. Выводы, основанные на S&S, затронули основные вопросы биологии эукариот и их приложений в медицине человека. Эти приложения могут расширяться по мере того, как области клинической геномики и фармакогеномики расширяют свои исследования с помощью проектов мега-секвенирования, таких как проект All of Us [46], в котором будет секвенировано миллион человек, а также секвенирование миллионов пациентов в клинической практике и исследованиях в будущее.

Подтверждающие доказательства [ править ]

Если теория расщепленных генов верна, можно ожидать, что структурные особенности расщепленных генов, предсказанные на основе компьютерно смоделированных случайных последовательностей, будут иметь место в реальных расщепленных генах эукариот. Это то, что мы находим в большинстве известных расщепленных генов у современных эукариот. Эукариотические последовательности демонстрируют почти идеальное отрицательное экспоненциальное распределение длин ORF с верхним пределом 600 оснований (за редкими исключениями). [1] [2] [20] [3] Кроме того, за редкими исключениями, экзоны эукариотических генов попадают в пределы этого верхнего максимума в 600 оснований.

Более того, если эта теория верна, экзоны должны быть ограничены стоп-кодонами, особенно на 3'-концах экзонов (то есть на 5'-концах интронов). На самом деле, как и предполагалось, в большинстве известных генов они более четко разграничены на 3'-концах экзонов и менее сильно на 5'-концах. [1] [2] [20] [3] Эти стоп-кодоны являются наиболее важными функциональными частями обоих сплайсинговых соединений (канонические основания GT: AG). Таким образом, теория дает объяснение «консервативным» сплайсинговым соединениям на концах экзонов и потере этих стоп-кодонов вместе с интронами при их сплайсинге. Если эта теория верна, сплайсинговые соединения должны быть случайным образом распределены в последовательностях эукариотической ДНК, и так оно и есть. [3] [23] [44][45] Сплайсинговые соединения, присутствующие в генах транспортной РНК и генах рибосомной РНК, которые не кодируют белки и в которых стоп-кодоны не имеют функционального значения, не должны содержать стоп-кодоны, и это снова наблюдается. Сигнал лариата, другая последовательность, участвующая в процессе сплайсинга, также содержит стоп-кодоны. [1] [2] [3] [20] [23] [44] [45]

Если теория расщепленного гена верна, тогда интроны не должны кодировать. Это точно установлено для современных эукариотических организмов, даже когда интроны состоят из сотен тысяч оснований. Они также должны быть в основном нефункциональными, и они есть. За исключением некоторых последовательностей интронов, включая донорные и акцепторные сигнальные последовательности сплайсинга и последовательности точек ветвления, и, возможно, энхансеры сплайсинга интронов, которые встречаются на концах интронов, которые помогают в удалении интронов, подавляющее большинство интронов лишены каких-либо функций. . Теория расщепленного гена не исключает того, что редкие последовательности внутри интронов случайно демонстрируют функциональные элементы, которые могут использоваться геномом и клеткой, особенно потому, что интроны очень длинные, что, как оказалось, верно.Все эти открытия показывают, что предсказания теории расщепленных генов точно подтверждаются структурными и функциональными характеристиками основных генетических элементов расщепленных генов современных эукариотических организмов.

Если расщепленные гены произошли от случайных первичных последовательностей ДНК, как это предлагается в теории расщепленных генов, могли бы быть доказательства того, что они присутствовали в самых ранних организмах. Фактически, используя сравнительный анализ современных данных генома нескольких живых организмов, ученые обнаружили, что характеристики расщепленных генов, присутствующие у современных эукариот, восходят к самым ранним организмам, появившимся на Земле. Эти исследования показывают, что самые ранние организмы могли содержать богатые интронами расщепленные гены и сложные белки, которые встречаются в современных живых организмах. [47] [48] [49] [50] [51] [52] [53] [54] [55]

Кроме того, используя другой вычислительно-аналитический метод, известный как «анализ максимального правдоподобия», ученые обнаружили, что самые ранние эукариотические организмы должны были содержать те же гены, что и современные живые организмы, с еще более высокой плотностью интронов. [56] Кроме того, сравнительная геномика многих организмов, включая базальные эукариоты (которые считаются примитивными эукариотическими организмами, такими как Amoeboflagellata, Diplomonadida и Parabasalia), показали, что богатые интронами расщепленные гены, сопровождаемые полностью сформированной сплайсосомой современных сложных организмов, присутствовали в самые ранние организмы, и что самые ранние организмы были чрезвычайно сложными со всеми компонентами эукариотической клетки. [57] [47] [58] [59][60] [56]

Эти литературные данные в точности совпадают с предсказаниями теории расщепленных генов, почти с математической точностью, обеспечивая замечательную поддержку. Эта теория подтверждается результатами сравнительного анализа последовательностей реальных эукариотических генов с последовательностями случайных последовательностей ДНК, сгенерированных компьютером. Кроме того, сравнительный анализ данных генома многих организмов, живущих сегодня, несколькими группами ученых показывает, что самые ранние организмы, появившиеся на Земле, имели богатые интронами расщепленные гены, кодирующие сложные белки и клеточные компоненты, такие как те, что обнаружены в современных эукариотических организмах. . Таким образом, теория расщепленного гена обеспечивает комплексные решения для всех структурных и функциональных особенностей архитектуры расщепленного гена с убедительными подтверждающими доказательствами из опубликованной литературы.

Избранные публикации [ править ]

  • Шапиро, Марвин Б .; Senapathy, Periannan (1987). «Соединения сплайсинга РНК различных классов эукариот: статистика последовательностей и функциональное значение в экспрессии генов» . Исследования нуклеиновых кислот . 15 (17): 7155–7174. DOI : 10.1093 / NAR / 15.17.7155 . PMC  306199 . PMID  3658675 .
  • Сенапати, П. (1988). «Возможная эволюция сигналов сплайс-соединения в эукариотических генах из стоп-кодонов» . Proc Natl Acad Sci USA . 85 (4): 1129–33. Bibcode : 1988PNAS ... 85.1129S . DOI : 10.1073 / pnas.85.4.1129 . PMC  279719 . PMID  3422483 .
  • Senapathy, P; Шапиро, МБ; Харрис, Н.Л. (1990). Соединения сплайсинга, сайты точек ветвления и экзоны: статистика последовательностей, идентификация и приложения в геномном проекте . Методы в энзимологии . 183 . С.  252–78 . DOI : 10.1016 / 0076-6879 (90) 83018-5 . ISBN 9780121820848. PMID  2314278 .
  • Харрис, Нидерланды; Сенапати, П. (1990). «Распределение и консенсус сигналов точки ветвления в эукариотических генах: компьютеризированный статистический анализ» . Nucleic Acids Res . 18 (10): 3015–9. DOI : 10.1093 / NAR / 18.10.3015 . PMC  330832 . PMID  2349097 .
  • Сенапати, П. (1986). «Происхождение эукариотических интронов: гипотеза, основанная на статистике распределения кодонов в генах, и ее последствия» . Proc Natl Acad Sci USA . 83 (7): 2133–7. Bibcode : 1986PNAS ... 83.2133S . DOI : 10.1073 / pnas.83.7.2133 . PMC  323245 . PMID  3457379 .
  • Regulapati, R .; Bhasi, A .; Сингх, СК; Сенапати, П. (2008). «Происхождение расщепленной структуры генов сплайсосом из случайных генетических последовательностей» . PLOS ONE . 3 (10): 10. Bibcode : 2008PLoSO ... 3.3456R . DOI : 10.1371 / journal.pone.0003456 . PMC  2565106 . PMID  18941625 .
  • Сенапати, П. (1995). «Интроны и происхождение генов, кодирующих белок» . Наука . 268 (5215): 1366–7. Bibcode : 1995Sci ... 268.1366S . DOI : 10.1126 / science.7761858 . PMID  7761858 .  

Ссылки [ править ]

  1. ^ a b c d e f g h i j k l m n o p q Senapathy, P. (апрель 1986 г.). «Происхождение эукариотических интронов: гипотеза, основанная на статистике распределения кодонов в генах, и ее последствия» . Труды Национальной академии наук Соединенных Штатов Америки . 83 (7): 2133–2137. Bibcode : 1986PNAS ... 83.2133S . DOI : 10.1073 / pnas.83.7.2133 . ISSN 0027-8424 . PMC 323245 .  PMID  3457379 .
  2. ^ a b c d e f g h i j k l m n o Senapathy, P. (февраль 1982 г.). «Возможная эволюция сигналов сплайс-соединения в эукариотических генах из стоп-кодонов» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (4): 1129–1133. Bibcode : 1988PNAS ... 85.1129S . DOI : 10.1073 / pnas.85.4.1129 . ISSN 0027-8424 . PMC 279719 . PMID 3422483 .   
  3. ^ Б с д е е г ч я J Senapathy, P. (1995-06-02). «Интроны и происхождение генов, кодирующих белок» . Наука . 268 (5215): 1366–1367, ответ автора 1367–1369. Bibcode : 1995Sci ... 268.1366S . DOI : 10.1126 / science.7761858 . ISSN 0036-8075 . PMID 7761858 .  
  4. Перейти ↑ Theobald, Douglas L. (2012). «29+ свидетельств макроэволюции: научное обоснование общего происхождения» . Цитировать журнал требует |journal=( помощь )
  5. ^ Гиллис, SD; Моррисон, SL; Oi, VT; Тонегава, С. (июнь 1983 г.). «Тканеспецифический элемент усилителя транскрипции расположен в главном интроне перестроенного гена тяжелой цепи иммуноглобулина». Cell . 33 (3): 717–728. DOI : 10.1016 / 0092-8674 (83) 90014-4 . ISSN 0092-8674 . PMID 6409417 . S2CID 40313833 .   
  6. ^ Mercola, M .; Ван, XF; Olsen, J .; Каламе, К. (1983-08-12). «Элементы усилителя транскрипции в локусе тяжелой цепи иммуноглобулина мыши». Наука . 221 (4611): 663–665. Bibcode : 1983Sci ... 221..663M . DOI : 10.1126 / science.6306772 . ISSN 0036-8075 . PMID 6306772 .  
  7. ^ Берк, AJ; Шарп, Пенсильвания (ноябрь 1977 г.). «Определение размеров и картирование мРНК ранних аденовирусов с помощью гель-электрофореза гибридов, расщепленных эндонуклеазой S1» . Cell . 12 (3): 721–732. DOI : 10.1016 / 0092-8674 (77) 90272-0 . ISSN 0092-8674 . PMID 922889 .  
  8. ^ Бергет, SM; Мур, C; Шарп, Пенсильвания (август 1977 г.). «Сплайсированные сегменты на 5'-конце поздней мРНК аденовируса 2» . Труды Национальной академии наук Соединенных Штатов Америки . 74 (8): 3171–3175. Bibcode : 1977PNAS ... 74.3171B . DOI : 10.1073 / pnas.74.8.3171 . ISSN 0027-8424 . PMC 431482 . PMID 269380 .   
  9. ^ Чоу, LT; Робертс, JM; Льюис, JB; Брокер, TR (август 1977 г.). «Карта цитоплазматических транскриптов РНК литического аденовируса типа 2, определенная с помощью электронной микроскопии гибридов РНК: ДНК». Cell . 11 (4): 819–836. DOI : 10.1016 / 0092-8674 (77) 90294-X . ISSN 0092-8674 . PMID 890740 . S2CID 37967144 .   
  10. ^ "Комплект онлайн-образования: 1977: Обнаружены интроны" . Национальный институт исследования генома человека (NHGRI) . Проверено 1 января 2019 .
  11. Дулиттл, У. Форд (13 апреля 1978 г.). «Гены по частям: были ли они когда-нибудь вместе?» . Природа . 272 (5654): 581–582. Bibcode : 1978Natur.272..581D . DOI : 10.1038 / 272581a0 . ISSN 1476-4687 . S2CID 4162765 .  
  12. ^ Дарнелл, JE (1978-12-22). «Влияние сплайсинга РНК-РНК в эволюции эукариотических клеток». Наука . 202 (4374): 1257–1260. DOI : 10.1126 / science.364651 . ISSN 0036-8075 . PMID 364651 .  
  13. ^ Дулиттл, WF; Дарнелл, Дж. Э. (1986-03-01). «Размышления о раннем ходе эволюции» . Труды Национальной академии наук . 83 (5): 1271–1275. Bibcode : 1986PNAS ... 83.1271D . DOI : 10.1073 / pnas.83.5.1271 . ISSN 1091-6490 . PMC 323057 . PMID 2419905 .   
  14. ^ а б в Блейк, CCF (1985-01-01). Экзоны и эволюция белков . Международный обзор цитологии . 93 . С. 149–185. DOI : 10.1016 / S0074-7696 (08) 61374-1 . ISBN 9780123644930. ISSN  0074-7696 . PMID  2409042 .
  15. Гилберт, Уолтер (февраль 1978 г.). "Почему гены разваливаются на части?" . Природа . 271 (5645): 501. Bibcode : 1978Natur.271..501G . DOI : 10.1038 / 271501a0 . ISSN 1476-4687 . PMID 622185 . S2CID 4216649 .   
  16. ^ Тонегава, S; Максам, AM; Тизард, Р; Бернар, О; Гилберт, Вт (март 1978 г.). «Последовательность гена зародышевой линии мыши для вариабельной области легкой цепи иммуноглобулина» . Труды Национальной академии наук Соединенных Штатов Америки . 75 (3): 1485–1489. Bibcode : 1978PNAS ... 75.1485T . DOI : 10.1073 / pnas.75.3.1485 . ISSN 0027-8424 . PMC 411497 . PMID 418414 .   
  17. ^ Feng, DF; Дулиттл, РФ (1987-01-01). «Реконструкция эволюции свертывания крови позвоночных с учетом аминокислотных последовательностей белков свертывания». Симпозиумы Колд-Спринг-Харбор по количественной биологии . 52 : 869–874. DOI : 10.1101 / SQB.1987.052.01.095 . ISSN 1943-4456 . PMID 3483343 .  
  18. ^ Гиббонс, А. (1990-12-07). «Расчет исходного семейства - экзонов». Наука . 250 (4986): 1342. Bibcode : 1990Sci ... 250.1342G . DOI : 10.1126 / science.1701567 . ISSN 1095-9203 . PMID 1701567 .  
  19. ^ a b c Рева Олег; Тюммлер, Буркхард (2008). «Думайте масштабно - гигантские гены у бактерий» (PDF) . Экологическая микробиология . 10 (3): 768–777. DOI : 10.1111 / j.1462-2920.2007.01500.x . ЛВП : 2263/9009 . ISSN 1462-2920 . PMID 18237309 .   
  20. ^ a b c d e f g Регулапати, Рахул; Сингх, Чандан Кумар; Бхаси, Ашвини; Senapathy, Periannan (2008-10-20). «Происхождение расщепленной структуры генов сплайсосом из случайных генетических последовательностей» . PLOS ONE . 3 (10): e3456. Bibcode : 2008PLoSO ... 3.3456R . DOI : 10.1371 / journal.pone.0003456 . ISSN 1932-6203 . PMC 2565106 . PMID 18941625 .   
  21. ^ Информация, Reed Business (1986-06-26). Новый ученый . Деловая информация компании Reed.
  22. ^ Информация, Reed Business (1988-03-31). Новый ученый . Деловая информация компании Reed.
  23. ^ a b c d Senapathy, Periannan; Харрис, Номи Л. (1990-05-25). «Распределение и консенсус сигналов точки ветвления в генах эукариот: компьютеризированный статистический анализ» . Исследования нуклеиновых кислот . 18 (10): 3015–9. DOI : 10.1093 / NAR / 18.10.3015 . ISSN 0305-1048 . PMC 330832 . PMID 2349097 .   
  24. ^ Maier, U.-G .; Браун, JWS; Toloczyki, C .; Фикс, Г. (январь 1987 г.). «Связывание ядерного фактора с консенсусной последовательностью в 5'-фланкирующей области генов зеина кукурузы» . Журнал EMBO . 6 (1): 17–22. DOI : 10.1002 / j.1460-2075.1987.tb04712.x . ISSN 0261-4189 . PMC 553350 . PMID 15981330 .   
  25. ^ Келлер, ЭБ; Полдень, Вашингтон (1985-07-11). «Сплайсинг интронов: консервативный внутренний сигнал в интронах пре-мРНК дрозофилы» . Исследования нуклеиновых кислот . 13 (13): 4971–4981. DOI : 10.1093 / NAR / 13.13.4971 . ISSN 0305-1048 . PMC 321838 . PMID 2410858 .   
  26. ^ BIRNSTIEL, M; БУСЛИНГЕР, М; СТРУБ, К. (июнь 1985 г.). «Прерывание транскрипции и 3 'обработка: конец на месте!». Cell . 41 (2): 349–359. DOI : 10.1016 / s0092-8674 (85) 80007-6 . ISSN 0092-8674 . PMID 2580642 . S2CID 11999043 .   
  27. ^ Консорциум, Международное секвенирование генома человека (февраль 2001 г.). «Первоначальное секвенирование и анализ генома человека» . Природа . 409 (6822): 860–921. Bibcode : 2001Natur.409..860L . DOI : 10.1038 / 35057062 . ISSN 1476-4687 . PMID 11237011 .  
  28. ^ Чжу, Сяохун; Зандие, Али; Ся, Эшли; Ву, Митчелл; Ву, Дэвид; Вэнь, Мэйюань; Ван, Мэй; Вентер, Эли; Тернер, Рассел (2001-02-16). «Последовательность генома человека» . Наука . 291 (5507): 1304–1351. Bibcode : 2001Sci ... 291.1304V . DOI : 10.1126 / science.1058040 . ISSN 1095-9203 . PMID 11181995 .  
  29. ^ Кан, Byoung-Cheorl; Нет, Гёнджу; Ли, Хын-Рюль; Хан, Койн; Purushotham, Preethi M .; Джо, Джинкван (2017). «Разработка генетической карты лука (Allium cepa L.) с использованием безреференсного генотипирования путем секвенирования и анализов SNP» . Границы растениеводства . 8 : 1606. DOI : 10.3389 / fpls.2017.01606 . ISSN 1664-462X . PMC 5604068 . PMID 28959273 .   
  30. ^ Смит, Джерамайя Дж .; Восс, С. Рэндал; Tsonis, Panagiotis A .; Тимошевская Наталия Юрьевна; Тимошевский, Владимир А .; Кейнат, Мелисса К. (10 ноября 2015 г.). «Первоначальная характеристика большого генома саламандры Ambystoma mexicanum с использованием дробовика и секвенирования хромосом с лазерным захватом» . Научные отчеты . 5 : 16413. Bibcode : 2015NatSR ... 516413K . DOI : 10.1038 / srep16413 . ISSN 2045-2322 . PMC 4639759 . PMID 26553646 .   
  31. ^ Вентер, JC; Адамс, доктор медицины; Майерс, EW; Ли, PW; Фреска, RJ; Sutton, GG; Смит, Х.о .; Yandell, M .; Эванс, Калифорния (16 февраля 2001 г.). «Последовательность генома человека» . Наука . 291 (5507): 1304–1351. Bibcode : 2001Sci ... 291.1304V . DOI : 10.1126 / science.1058040 . ISSN 0036-8075 . PMID 11181995 .  
  32. ^ Лендер, ES; Линтон, Л. М.; Birren, B .; Nusbaum, C .; Зоды, МС; Болдуин, Дж .; Девон, К .; Dewar, K .; Дойл, М. (15 февраля 2001 г.). «Первоначальное секвенирование и анализ генома человека» (PDF) . Природа . 409 (6822): 860–921. Bibcode : 2001Natur.409..860L . DOI : 10.1038 / 35057062 . ISSN 0028-0836 . PMID 11237011 .   
  33. ^ Консорциум *, Секвенирование C. elegans (1998-12-11). «Последовательность генома нематоды C. elegans: платформа для изучения биологии». Наука . 282 (5396): 2012–2018. Bibcode : 1998Sci ... 282.2012. . DOI : 10.1126 / science.282.5396.2012 . ISSN 1095-9203 . PMID 9851916 .  
  34. ^ Инициатива по геному арабидопсиса (2000-12-14). «Анализ последовательности генома цветкового растения Arabidopsis thaliana» . Природа . 408 (6814): 796–815. Bibcode : 2000Natur.408..796T . DOI : 10.1038 / 35048692 . ISSN 0028-0836 . PMID 11130711 .  
  35. ^ Беннетцен, Джеффри Л .; Браун, Джеймс КМ; Девос, Катриен М. (01.07.2002). «Уменьшение размера генома посредством незаконной рекомбинации противодействует расширению генома у Arabidopsis» . Геномные исследования . 12 (7): 1075–1079. DOI : 10.1101 / gr.132102 . ISSN 1549-5469 . PMC 186626 . PMID 12097344 .   
  36. ^ Курляндия, CG; Canbäck, B .; Берг, О.Г. (декабрь 2007 г.). «Истоки современных протеомов». Биохимия . 89 (12): 1454–1463. DOI : 10.1016 / j.biochi.2007.09.004 . ISSN 0300-9084 . PMID 17949885 .  
  37. ^ Каэтано-Anollés, Густаво; Каэтано-Аноллес, Дерек (июль 2003 г.). «Эволюционно структурированная вселенная белковой архитектуры» . Геномные исследования . 13 (7): 1563–1571. DOI : 10.1101 / gr.1161903 . ISSN 1088-9051 . PMC 403752 . PMID 12840035 .   
  38. ^ Глансдорф, Николас; Сюй, Инь; Лабедан, Бернард (2008-07-09). «Последний универсальный общий предок: возникновение, конституция и генетическое наследие неуловимого предшественника» . Биология Директ . 3 : 29. DOI : 10.1186 / 1745-6150-3-29 . ISSN 1745-6150 . PMC 2478661 . PMID 18613974 .   
  39. ^ Курляндия, CG; Коллинз, LJ; Пенни, Д. (19 мая 2006 г.). «Геномика и несводимая природа эукариотических клеток». Наука . 312 (5776): 1011–1014. Bibcode : 2006Sci ... 312.1011K . DOI : 10.1126 / science.1121674 . ISSN 1095-9203 . PMID 16709776 . S2CID 30768101 .   
  40. ^ Коллинз, Лесли; Пенни, Дэвид (апрель 2005 г.). «Сложная сплайсосомная организация предков современных эукариот» . Молекулярная биология и эволюция . 22 (4): 1053–1066. DOI : 10.1093 / molbev / msi091 . ISSN 0737-4038 . PMID 15659557 .  
  41. Пенни, Дэвид; Коллинз, Лесли Дж .; Дейли, Тони К .; Кокс, Саймон Дж. (Декабрь 2014 г.). «Относительный возраст эукариот и акариотов». Журнал молекулярной эволюции . 79 (5–6): 228–239. Bibcode : 2014JMolE..79..228P . DOI : 10.1007 / s00239-014-9643-у . ISSN 1432-1432 . PMID 25179144 . S2CID 17512331 .   
  42. ^ Fuerst, John A .; Сагуленко, Евгений (04.05.2012). «Ключи к эукариальности: планктомицеты и наследственная эволюция клеточной сложности» . Границы микробиологии . 3 : 167. DOI : 10,3389 / fmicb.2012.00167 . ISSN 1664-302X . PMC 3343278 . PMID 22586422 .   
  43. ^ Коллинз, Лесли; Пенни, Дэвид (апрель 2005 г.). «Сложная сплайсосомная организация предков современных эукариот» . Молекулярная биология и эволюция . 22 (4): 1053–1066. DOI : 10.1093 / molbev / msi091 . ISSN 0737-4038 . PMID 15659557 .  [ требуется проверка ]
  44. ^ а б в г Шапиро, МБ; Сенапати, П. (1987-09-11). «Соединения сплайсинга РНК различных классов эукариот: статистика последовательностей и функциональное значение в экспрессии генов» . Исследования нуклеиновых кислот . 15 (17): 7155–7174. DOI : 10.1093 / NAR / 15.17.7155 . ISSN 0305-1048 . PMC 306199 . PMID 3658675 .   
  45. ^ a b c d Senapathy, P .; Шапиро, МБ; Харрис, Н.Л. (1990). Соединения сплайсинга, сайты точек ветвления и экзоны: статистика последовательностей, идентификация и приложения в геномном проекте . Методы в энзимологии . 183 . С. 252–278. DOI : 10.1016 / 0076-6879 (90) 83018-5 . ISBN 9780121820848. ISSN  0076-6879 . PMID  2314278 .
  46. ^ "Национальные институты здоровья (NIH) - Все мы" . allofus.nih.gov . Проверено 2 января 2019 .
  47. ^ а б Пенни, Дэвид; Коллинз, Лесли (1 апреля 2005 г.). «Сложная сплайсосомная организация, предок существующих эукариот» . Молекулярная биология и эволюция . 22 (4): 1053–1066. DOI : 10.1093 / molbev / msi091 . ISSN 0737-4038 . PMID 15659557 .  
  48. ^ Каэтано-Anollés, Дерек; Каэтано-Аноллес, Густаво (1 июля 2003 г.). «Эволюционно структурированная вселенная белковой архитектуры» . Геномные исследования . 13 (7): 1563–1571. DOI : 10.1101 / gr.1161903 . ISSN 1549-5469 . PMC 403752 . PMID 12840035 .   
  49. ^ Глансдорф, Николас; Сюй, Инь; Лабедан, Бернард (2008-07-09). «Последний всеобщий общий предок: возникновение, конституция и генетическое наследие неуловимого предшественника» . Биология Директ . 3 (1): 29. DOI : 10.1186 / 1745-6150-3-29 . ISSN 1745-6150 . PMC 2478661 . PMID 18613974 .   
  50. ^ Курляндия, CG; Canbäck, B .; Берг, О.Г. (2007-12-01). «Истоки современных протеомов». Биохимия . 89 (12): 1454–1463. DOI : 10.1016 / j.biochi.2007.09.004 . ISSN 0300-9084 . PMID 17949885 .  
  51. ^ Пенни, D .; Коллинз, LJ; Курляндия, CG (19.05.2006). «Геномика и неприводимая природа клеток эукариотов». Наука . 312 (5776): 1011–1014. Bibcode : 2006Sci ... 312.1011K . DOI : 10.1126 / science.1121674 . ISSN 1095-9203 . PMID 16709776 . S2CID 30768101 .   
  52. ^ Пул, AM; Джеффарес, округ Колумбия; Пенни, Д. (январь 1998 г.). «Путь из мира РНК». Журнал молекулярной эволюции . 46 (1): 1–17. Bibcode : 1998JMolE..46 .... 1P . DOI : 10.1007 / PL00006275 . ISSN 0022-2844 . PMID 9419221 . S2CID 17968659 .   
  53. ^ Фортер, Патрик; Филипп, Эрве (1999). «Где корень вселенского древа жизни?». BioEssays . 21 (10): 871–879. DOI : 10.1002 / (SICI) 1521-1878 (199910) 21:10 <871 :: AID-BIES10> 3.0.CO; 2-Q . ISSN 1521-1878 . PMID 10497338 .  
  54. ^ Кокс, Саймон Дж .; Дейли, Тони К .; Коллинз, Лесли Дж .; Пенни, Дэвид (2014-12-01). «Относительный возраст эукариот и акариот». Журнал молекулярной эволюции . 79 (5–6): 228–239. Bibcode : 2014JMolE..79..228P . DOI : 10.1007 / s00239-014-9643-у . ISSN 1432-1432 . PMID 25179144 . S2CID 17512331 .   
  55. ^ Сагуленко, Евгений; Фуэрст, Джон Арлингтон (2012). «Ключи к эукариальности: планктомицеты и наследственная эволюция клеточной сложности» . Границы микробиологии . 3 . DOI : 10.3389 / fmicb.2012.00167 . ISSN 1664-302X . PMC 3343278 . PMID 22586422 .   
  56. ^ а б Гилберт, Уолтер; Рой, Скотт В. (2005-02-08). «Сложные ранние гены» . Труды Национальной академии наук . 102 (6): 1986–1991. Bibcode : 2005PNAS..102.1986R . DOI : 10.1073 / pnas.0408355101 . ISSN 1091-6490 . PMC 548548 . PMID 15687506 .   
  57. ^ Гилберт, Уолтер; Рой, Скотт Уильям (март 2006 г.). «Эволюция сплайсосомных интронов: закономерности, загадки и прогресс». Природа Обзоры Генетики . 7 (3): 211–221. DOI : 10.1038 / nrg1807 . ISSN 1471-0064 . PMID 16485020 . S2CID 33672491 .   
  58. ^ Рогозин, Игорь Б .; Свердлов, Александр В .; Бабенко, Владимир Н .; Кунин, Евгений В. (июнь 2005 г.). «Анализ эволюции экзон-интронной структуры эукариотических генов» . Брифинги по биоинформатике . 6 (2): 118–134. DOI : 10.1093 / нагрудник / 6.2.118 . ISSN 1467-5463 . PMID 15975222 .  
  59. ^ Салливан, Джеймс С .; Reitzel, Adam M .; Финнерти, Джон Р. (2006). «Высокий процент интронов в генах человека присутствовал на ранних этапах эволюции животных: свидетельства от базального многоклеточного животного Nematostella vectensis». Геномная информатика. Международная конференция по геномной информатике . 17 (1): 219–229. ISSN 0919-9454 . PMID 17503371 .  
  60. ^ Кунин, Евгений В .; Рогозин, Игорь Б .; Чурос, Миклош (15 сентября 2011 г.). «Подробная история богатых интроном эукариотических предков, выведенная из глобального обзора 100 полных геномов» . PLOS Вычислительная биология . 7 (9): e1002150. Bibcode : 2011PLSCB ... 7E2150C . DOI : 10.1371 / journal.pcbi.1002150 . ISSN 1553-7358 . PMC 3174169 . PMID 21935348 .