Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

BioJava - это проект программного обеспечения с открытым исходным кодом, предназначенный для предоставления инструментов Java для обработки биологических данных. [1] [2] [3] BioJava - это набор библиотечных функций, написанных на языке программирования Java для управления последовательностями, структурами белков, анализаторами файлов, совместимостью с Common Object Request Broker Architecture (CORBA), распределенной системой аннотаций (DAS), доступом в AceDB, динамическое программирование и простые статистические процедуры. BioJava поддерживает огромный диапазон данных, начиная от последовательностей ДНК и белков до уровня трехмерных белковых структур. Библиотеки BioJava полезны для автоматизации многих повседневных и повседневных задач биоинформатики, таких как синтаксический анализ файла банка данных белка (PDB), взаимодействие с Jmol и многое другое. [4] Этот интерфейс прикладного программирования (API) предоставляет различные анализаторы файлов, модели данных и алгоритмы для облегчения работы со стандартными форматами данных и обеспечивает быструю разработку и анализ приложений.

Дополнительные проекты от BioJava включают rcsb-sequenceviewer, biojava-http, biojava-spark и rcsb-viewers.

Особенности [ править ]

BioJava предоставляет программные модули для многих типичных задач программирования биоинформатики. К ним относятся:

  • Доступ к данным нуклеотидных и пептидных последовательностей из локальных и удаленных баз данных
  • Преобразование форматов записей базы данных / файлов
  • Разбор структуры белка и манипулирование
  • Управление отдельными последовательностями
  • Поиск похожих последовательностей
  • Создание и изменение выравнивания последовательностей

История и публикации [ править ]

Проект BioJava вырос из работы Томаса Дауна и Мэтью Покока по созданию API для упрощения разработки инструментов биоинформатики на основе Java. BioJava - это активный проект с открытым исходным кодом, который разрабатывался более 12 лет более чем 60 разработчиками. BioJava - один из ряда проектов Bio *, направленных на уменьшение дублирования кода. [5] Примерами таких проектов, которые подпадают под Bio *, помимо BioJava, являются BioPython , [6] BioPerl , [7] BioRuby , [8] EMBOSS [9] и т. Д.

В октябре 2012 года была опубликована первая статья о BioJava. [10] В этой статье подробно описаны модули, функции и назначение BioJava.

По состоянию на ноябрь 2018 года Google Scholar насчитывает более 130 цитирований. [11]

Самая последняя статья по BioJava была написана в феврале 2017 года. [12] В этой статье подробно описан новый инструмент под названием BioJava-ModFinder. Этот инструмент можно использовать для идентификации и последующего картирования модификаций белка в 3D в банке данных белков ( PBD ). Пакет также был интегрирован с веб-приложением RCSB PDB и добавил аннотации модификации белка к диаграмме последовательности и отображению структуры. С помощью BioJava-ModFinder было идентифицировано более 30 000 структур с модификациями белков, которые можно найти на сайте RCSB PDB.

В 2008 году была опубликована первая информация о приложении BioJava. [2] Он был перенесен из исходного репозитория CVS в Git Hub в апреле 2013 года. [13] Проект был перемещен в отдельный репозиторий, BioJava-legacy, и все еще поддерживается для незначительных изменений и исправлений ошибок. [14]

Версия 3 была выпущена в декабре 2010 года. Это было серьезное обновление предыдущих версий. Целью этого выпуска было переписать BioJava так, чтобы его можно было разделить на небольшие, повторно используемые компоненты. Это позволило разработчикам легче вносить свой вклад и уменьшило зависимости. Новый подход, представленный в BioJava 3, был смоделирован по образцу Apache Commons .

Версия 4 была выпущена в январе 2015 года. Эта версия принесла много новых функций и улучшений в пакеты biojava-core, biojava-structure, biojava-structure-gui, biojava-phylo и другие. BioJava 4.2.0 был первым выпуском, который был доступен с использованием Maven из Maven Central.

Версия 5 была выпущена в марте 2018 года. Это является важной вехой для проекта. BioJava 5.0.0 - первая версия, основанная на Java 8, которая вводит использование лямбда- функций и потоковых вызовов API. Также произошли серьезные изменения в модуле структуры биоявы. Кроме того, предыдущие модели данных для макромолекулярных структур были адаптированы для более точного представления модели данных mmCIF . Это был первый релиз более чем за два года. Некоторые из других улучшений включают оптимизацию в модуле структуры биоявы для улучшения обнаружения симметрии и добавленную поддержку форматов MMTF. Другие общие улучшения включают обновления Javadoc, версии зависимостей и все тесты теперь Junit4. Релиз содержит 1170 коммитов от 19 участников.

Модули [ править ]

В течение 2014-2015 годов были переписаны большие части исходной кодовой базы. BioJava 3 является явным отходом от серии версии 1. Теперь он состоит из нескольких независимых модулей, созданных с помощью инструмента автоматизации Apache Maven . [15] Эти модули предоставляют современные инструменты для сравнения структуры белков, попарного и множественного выравнивания последовательностей, работы с последовательностями ДНК и белков, анализа свойств аминокислот, обнаружения модификаций белков, прогнозирования неупорядоченных областей в белках и анализаторов. для распространенных форматов файлов с использованием биологически значимой модели данных. Исходный код был перемещен в отдельный устаревший проект BioJava, который все еще доступен для обратной совместимости. [16]

В BioJava 5 добавлены новые функции в два модуля: biojava-alignment и biojava-structure.

В следующих разделах будут описаны несколько новых модулей и выделены некоторые из новых функций, включенных в последнюю версию BioJava.

Основной модуль [ править ]

Этот модуль предоставляет классы Java для моделирования аминокислотных или нуклеотидных последовательностей. Классы были разработаны таким образом, чтобы названия были знакомы и имели смысл для биологов, а также обеспечивали конкретное представление этапов перехода от последовательности гена к последовательности белка для компьютерных ученых и программистов.

Основное различие между унаследованным проектом BioJava и BioJava3 заключается в способе разработки фреймворка для использования новых на тот момент инноваций в Java. Последовательность определяется как общий интерфейс, позволяющий остальным модулям создавать любую утилиту, которая работает со всеми последовательностями. Определенные классы для общих последовательностей, таких как ДНК и белки, были определены с целью повышения удобства использования для биологов. Механизм трансляции действительно использует эту работу, позволяя преобразовывать последовательности ДНК, РНК и аминокислот. Этот механизм может обрабатывать такие детали, как выбор таблицы кодонов, преобразование стартовых кодонов в метионин, обрезка стоп-кодонов, определение рамки считывания и обработка неоднозначных последовательностей.

Особое внимание было уделено разработке хранилища последовательностей, чтобы минимизировать потребность в пространстве. Специальные шаблоны проектирования, такие как шаблон Proxy, позволили разработчикам создать структуру, в которой последовательности могут храниться в памяти, извлекаться по запросу из веб-службы, такой как UniProt, или считываться из файла FASTA по мере необходимости. Последние два подхода экономят память, не загружая данные последовательности до тех пор, пока на них нет ссылки в приложении. Эту концепцию можно расширить для обработки очень больших наборов геномных данных, таких как NCBI GenBank или собственная база данных.

Модули структуры белка [ править ]

В этом окне показаны два белка с идентификаторами «4hhb.A» и «4hhb.B», выровненные друг против друга. Код указан слева. Это создается с использованием библиотек BioJava, которая, в свою очередь, использует программу просмотра Jmol. [4] Для выравнивания здесь используется жесткий алгоритм FATCAT [17] .

Модули белковой структуры предоставляют инструменты для представления и управления трехмерными биомолекулярными структурами. Они сосредоточены на сравнении структуры белков.

Следующие алгоритмы были реализованы и включены в BioJava.

  • Алгоритм FATCAT для выравнивания гибких и твердых тел. [17]
  • Стандартный алгоритм комбинаторного расширения (CE). [18]
  • Новая версия CE, которая может обнаруживать кольцевые перестановки в белках. [19]

Эти алгоритмы используются для создания RCSB Protein Data Bank (PDB) [20] Protein Comparison Tool, а также для еженедельного систематического сравнения всех белков в PDB. [21]

Парсеры для файловых форматов PDB [22] и mmCIF [23] позволяют загружать структурные данные в модель данных многократного использования. Эта функция используется проектом SIFTS для сопоставления последовательностей UniProt и структур PDB. [24] Информация из RCSB PDB может быть извлечена динамически без необходимости вручную загружать данные. Для визуализации предоставляется интерфейс к программе 3D-просмотра Jmol. [4]

Модули генома и секвенирования [ править ]

Этот модуль ориентирован на создание объектов генной последовательности из основного модуля. Это реализуется за счет поддержки анализа следующих популярных стандартных форматов файлов, созданных приложениями для прогнозирования генов с открытым исходным кодом:

  • Файлы GTF, созданные GeneMark [25]
  • Файлы GFF2, созданные GeneID [26]
  • Файлы GFF3, созданные Glimmer [27]

Затем объекты генной последовательности записываются в формате GFF3 и импортируются в GMOD. [28] Эти форматы файлов четко определены, но то, что записывается в файл, очень гибкое.

Для обеспечения поддержки ввода-вывода для нескольких распространенных вариантов формата файлов FASTQ из секвенсоров следующего поколения [29] предоставляется отдельный модуль секвенирования. Примеры использования этого модуля см. По этой ссылке .

Модуль выравнивания [ править ]

Этот модуль содержит несколько классов и методов, которые позволяют пользователям выполнять попарное и множественное выравнивание последовательностей. Последовательности можно выравнивать как в однопоточном, так и в многопоточном режиме. BioJava реализует алгоритм Нидлмана-Вунша [30] для оптимального глобального выравнивания и алгоритм Смита и Уотермана [31] для локального выравнивания. Результаты локальных и глобальных выравниваний доступны в стандартных форматах. В дополнение к этим двум алгоритмам существует реализация алгоритма Гуана – Убербахера [32], который очень эффективно выполняет глобальное выравнивание последовательностей, поскольку он использует только линейную память.

Для множественного выравнивания последовательностей можно использовать любой из описанных выше методов для постепенного выполнения множественного выравнивания последовательностей.

Модуль ModFinder [ править ]

Пример приложения, использующего модуль ModFinder и модуль структуры белка. Модификации белков картируются на последовательность и структуру ферредоксина I (PDB ID 1GAO). [33] Два возможных кластера железо-сера показаны на последовательности белка (3Fe – 4S (F3S): оранжевые треугольники / линии; 4Fe – 4S (SF4): фиолетовые ромбы / линии). Кластер 4Fe – 4S отображается в окне структуры Jmol над дисплеем последовательности.

Модуль ModFinder предоставляет новые методы для идентификации и классификации модификаций белков в трехмерных структурах белков. На основе аннотаций в PSI-MOD, [34] RESID [35] и RCSB PDB было собрано и систематизировано более 400 различных типов модификаций белков, таких как фосфорилирование , гликозилирование , хелатирование металлов дисульфидными связями и т . Д. [36] Модуль также предоставляет API для обнаружения пре-, ко- и посттрансляционных модификаций белков в белковых структурах. Этот модуль также может идентифицировать фосфорилирование и распечатывать все предварительно загруженные модификации структуры.

Модуль свойств аминокислот [ править ]

Этот модуль пытается предоставить точные физико-химические свойства белков. Свойства, которые можно вычислить с помощью этого модуля, следующие:

  • Молекулярная масса
  • Коэффициент экстинкции
  • Индекс нестабильности
  • Алифатический индекс
  • Среднее значение гидропатии
  • Изоэлектрическая точка
  • Аминокислотный состав

В этот модуль включены точные молекулярные массы распространенных изотопно меченных аминокислот. Также существует гибкость для определения новых молекул аминокислот с их молекулярными массами с использованием простых файлов конфигурации XML . Это может быть полезно, когда точная масса имеет большое значение, например, в масс-спектрометрических экспериментах.

Модуль белковых расстройств [ править ]

Цель этого модуля - предоставить пользователям способы поиска нарушений в белковых молекулах. BioJava включает Java-реализацию предсказателя RONN . BioJava 3.0.5 использует поддержку Java для многопоточности для повышения производительности до 3,2 раза [37] на современной четырехъядерной машине по сравнению с унаследованной реализацией C.

Этот модуль можно использовать двумя способами:

  • Использование вызовов функций библиотеки
  • Используя командную строку

Некоторые особенности этого модуля включают:

  • Расчет вероятности беспорядка для каждого остатка в последовательности
  • Расчет вероятности нарушения для каждого остатка в последовательности для всех белков из входного файла FASTA
  • Получите неупорядоченные области белка для одной последовательности белка или для всех белков из входного файла FASTA

Модуль доступа к веб-службам [ править ]

В соответствии с текущими тенденциями в биоинформатике, веб-инструменты становятся все более популярными. Модуль веб-сервисов позволяет получать доступ к биоинформатическим сервисам с использованием протоколов REST . В настоящее время реализованы две службы: NCBI Blast через Blast URLAPI (ранее известный как QBlast) и веб-служба HMMER. [38]

Сравнение с другими альтернативами [ править ]

Потребность в специализированном программном обеспечении в области биоинформатики была удовлетворена несколькими группами и отдельными лицами. Подобно BioJava, проекты программного обеспечения с открытым исходным кодом, такие как BioPerl , BioPython и BioRuby, предоставляют наборы инструментов с множеством функций, которые упрощают создание настраиваемых конвейеров или анализа.

Как следует из названия, упомянутые выше проекты используют разные языки программирования. Все эти API-интерфейсы предлагают похожие инструменты, поэтому на каких критериях следует основывать свой выбор? Для программистов, знающих только один из этих языков, выбор очевиден. Однако для разностороннего биоинформатика, знающего все эти языки и желающего выбрать лучший язык для работы, выбор может быть сделан на основе следующих рекомендаций, представленных в обзоре программного обеспечения, сделанном с помощью наборов инструментов Bio *. [5]

В общем, для небольших программ (<500 строк), которые будут использоваться только одним человеком или небольшой группой, трудно превзойти Perl и BioPerl . Эти ограничения, вероятно, покрывают потребности 90% персонального программирования в области биоинформатики.

Для новичков и для написания более крупных программ в области Bio, особенно тех, которые будут совместно использоваться и поддерживаться другими, ясность и краткость Python делают его очень привлекательным.

Для тех, кто, возможно, склоняется к карьере в области биоинформатики и хочет выучить только один язык, Java имеет широчайшую общую поддержку программирования, очень хорошую поддержку в области Bio с помощью BioJava, и теперь она является де-факто языком бизнеса (новый КОБОЛ, хорошо это или плохо).

Помимо этих проектов Bio *, существует еще один проект под названием STRAP, который использует Java и преследует аналогичные цели. Набор инструментов STRAP, аналогичный BioJava, также является набором инструментов Java для разработки программ и сценариев биоинформатики. Сходства и различия между BioJava и STRAP заключаются в следующем:

Сходства

  • Оба предоставляют исчерпывающий набор методов для белковых последовательностей.
  • Оба они используются Java-программистами для кодирования алгоритмов биоинформатики.
  • Обе отдельные реализации и определения с использованием интерфейсов Java.
  • Оба являются проектами с открытым исходным кодом.
  • Оба могут читать и записывать файлы многих форматов последовательностей.

Отличия

  • BioJava применима к нуклеотидным и пептидным последовательностям и может применяться ко всем геномам. STRAP не может справиться с отдельными последовательностями, пока вся хромосома. Вместо этого STRAP манипулирует пептидными последовательностями и трехмерными структурами размером с отдельные белки. Тем не менее, он может хранить в памяти большое количество последовательностей и структур. STRAP разработан для белковых последовательностей, но может считывать файлы кодирующих нуклеотидов, которые затем транслируются в пептидные последовательности.
  • STRAP работает очень быстро, поскольку графический интерфейс пользователя должен быть очень отзывчивым. BioJava используется там, где скорость менее важна.
  • BioJava хорошо разработана с точки зрения безопасности типов, онтологии и объектного дизайна. BioJava использует объекты для последовательностей, аннотаций и позиций последовательностей. Даже отдельные аминокислоты или нуклеотиды являются объектными ссылками. Для повышения скорости STRAP избегает частых экземпляров объектов и вызова неокончательных объектных методов.
    • В BioJava пептидные последовательности и нуклеотидные последовательности представляют собой списки символов. Символы могут быть извлечены один за другим с помощью итератора или могут быть получены подпоследовательности. Преимущества состоят в том, что вся последовательность не обязательно находится в памяти, и программы менее подвержены ошибкам программирования. Символобъекты - неизменные элементы алфавита. Однако в STRAP для последовательностей используются простые байтовые массивы, а для координат - массивы с плавающей запятой. Помимо скорости важным преимуществом базовых типов данных является низкое потребление памяти. Классы в Strap предоставляют внутренние данные. Следовательно, программисты могут совершать ошибки программирования, например, манипулировать массивами байтов напрямую, вместо использования методов установки. Другой недостаток состоит в том, что в STRAP не выполняется проверка того, являются ли символы в последовательностях действительными по отношению к нижележащему алфавиту.
    • В BioJava позиции последовательности реализованы классом Location . Несоприкасающийся Адрес объекты состоят из нескольких смежного RangeLocation объектов или PointLocation объектов. Однако для класса StrapProtein позиции одиночных остатков указываются целыми числами от 0 до countResidues () - 1 . Несколько позиций задаются логическими массивами. Истина по данному индексу означает выбранный, а ложный - не выбранный.
  • BioJava выдает исключения, когда методы вызываются с недопустимыми параметрами. STRAP позволяет избежать трудоемкого создания Throwable объектов. Вместо этого на ошибки в методах указывают возвращаемые значения NaN, -1 или null. Однако с точки зрения дизайна программы метательные предметы лучше.
  • В BioJava объект Sequence представляет собой пептидную или нуклеотидную последовательность. StrapProtein может содержать и то, и другое одновременно, если кодирующая нуклеотидная последовательность была считана и переведена в белок. И нуклеотидная последовательность, и пептидная последовательность содержатся в одном объекте StrapProtein. Кодирующие или некодирующие области могут быть изменены, и соответственно изменяется пептидная последовательность.

Проекты, использующие BioJava [ править ]

Следующие проекты используют BioJava.

  • Metabolic Pathway Builder: программный пакет, предназначенный для исследования связей между генами, белками, реакциями и метаболическими путями.
  • DengueInfo: информационный портал о геноме денге, который использует BioJava в качестве промежуточного программного обеспечения и взаимодействует с базой данных biosql.
  • Dazzle: DAS-сервер на основе BioJava.
  • BioSense: плагин для InforSense Suite, аналитической программной платформы IDBS, объединяющей BioJava.
  • Bioclipse: бесплатная рабочая среда с открытым исходным кодом для химио- и биоинформатики с мощными возможностями редактирования и визуализации молекул, последовательностей, белков, спектров и т. Д.
  • PROMPT: бесплатная среда и приложение с открытым исходным кодом для сравнения и сопоставления наборов белков. Использует BioJava для обработки большинства форматов входных данных.
  • Cytoscape: программная платформа биоинформатики с открытым исходным кодом для визуализации сетей молекулярного взаимодействия.
  • BioWeka: приложение для сбора биологических данных с открытым исходным кодом.
  • Geneious: набор инструментов молекулярной биологии.
  • MassSieve: приложение с открытым исходным кодом для анализа данных протеомики масс-спектрометрии.
  • Ремешок: инструмент для множественного выравнивания последовательностей и выравнивания структур на основе последовательностей.
  • Jstacs: структура Java для статистического анализа и классификации биологических последовательностей
  • jLSTM «Долгосрочная краткосрочная память» для классификации белков
  • LaJolla Структурное выравнивание РНК и белков с использованием индексной структуры для быстрого выравнивания тысяч структур. Включая простой в использовании интерфейс командной строки. Открытый исходный код на Sourceforge.
  • GenBeans: многофункциональная клиентская платформа для биоинформатики, в первую очередь ориентированная на молекулярную биологию и анализ последовательностей.
  • JEnsembl: API Java с учетом версий для систем данных Ensembl. [39]
  • MUSI: интегрированная система для определения множественной специфичности из очень больших наборов данных о пептидах или нуклеиновых кислотах. [40]
  • Bioshell: служебная библиотека для структурной биоинформатики [41]

См. Также [ править ]

  • Фонд открытой биоинформатики
  • BioPerl , Биопайтон , BioRuby
  • Биоклипс
  • Сравнение программного обеспечения для моделирования молекулярной механики

Ссылки [ править ]

  1. ^ Прлич А., Йетс А., Бливен С.Е. и др. (Октябрь 2012 г.). «BioJava: платформа с открытым исходным кодом для биоинформатики в 2012 году» . Биоинформатика . 28 (20): 2693–5. DOI : 10.1093 / биоинформатики / bts494 . PMC  3467744 . PMID  22877863 .
  2. ^ a b Holland RC, Down TA, Pocock M, Prlić A, Huen D, James K и др. (2008). «BioJava: платформа с открытым исходным кодом для биоинформатики» . Биоинформатика . 24 (18): 2096–7. DOI : 10.1093 / биоинформатики / btn397 . PMC 2530884 . PMID 18689808 .  
  3. ^ В. Мат и P Kangueane, 2009, биоинформатика: а внедрение концепции на основе 2009 p26
  4. ^ a b c Hanson, RM (2010) Jmol сдвиг парадигмы в кристаллографической визуализации.
  5. ^ а б Мангалам H (2002). «Наборы инструментов Bio * - краткий обзор» . Брифинги по биоинформатике . 3 (3): 296–302. DOI : 10.1093 / нагрудник / 3.3.296 . PMID 12230038 . 
  6. ^ Петух П.Дж., Антао Т., Чанг Дж. Т. и др. (Июнь 2009 г.). «Biopython: свободно доступные инструменты Python для вычислительной молекулярной биологии и биоинформатики» . Биоинформатика . 25 (11): 1422–3. DOI : 10.1093 / биоинформатики / btp163 . PMC 2682512 . PMID 19304878 .  
  7. ^ Stajich JE, блок D, Булез К, и др. (Октябрь 2002 г.). "Набор инструментов Bioperl: модули Perl для наук о жизни" . Genome Res . 12 (10): 1611–8. DOI : 10.1101 / gr.361602 . PMC 187536 . PMID 12368254 .  
  8. ^ Гото Н, Р Принса, Накао М, Бонналя R, Аэртс Дж, Катаяма Т (октябрь 2010 г.). «BioRuby: программа биоинформатики для языка программирования Ruby» . Биоинформатика . 26 (20): 2617–9. DOI : 10.1093 / биоинформатики / btq475 . PMC 2951089 . PMID 20739307 .  
  9. ^ Rice P, Лонгден I, Bleasby A (июнь 2000). "EMBOSS: Открытый программный пакет европейской молекулярной биологии". Тенденции Genet . 16 (6): 276–7. DOI : 10.1016 / S0168-9525 (00) 02024-2 . PMID 10827456 . 
  10. ^ Прлич А., Йетс А., Бливен С.Е. и др. (Октябрь 2012 г.). «BioJava: платформа с открытым исходным кодом для биоинформатики в 2012 году» . Биоинформатика . 28 (20): 2693–5. DOI : 10.1093 / биоинформатики / bts494 . PMC 3467744 . PMID 22877863 .  
  11. ^ "Google Scholar" . scholar.google.com . Проверено 22 ноября 2018 .
  12. ^ Гао, Цзяньцзюн; Прлич, Андреас; Би, Чуньсяо; Bluhm, Wolfgang F .; Димитропулос, Димитрис; Сюй, Донг; Bourne, Philip E .; Роуз, Питер В. (2017-02-17). «BioJava-ModFinder: идентификация модификаций белков в трехмерных структурах из банка данных белков» . Биоинформатика . 33 (13): 2047–2049. DOI : 10.1093 / биоинформатики / btx101 . ISSN 1367-4803 . PMC 5870676 . PMID 28334105 .   
  13. ^ «История» . Дата обращения 30 января 2015 .
  14. ^ BioJava-наследие архивации 2013-01-09 в Wayback Machine
  15. ^ Maven, Apache. «Мавен» . Apache.
  16. ^ Устаревший проект BioJava. Архивировано 9 января 2013 г. на Wayback Machine.
  17. ^ a b Ye Y, Годзик А. (октябрь 2003 г.). «Гибкость выравнивание структуры путем сцепления выровненных пар фрагментов , позволяющих завихрения» . Биоинформатика . 19 (Дополнение 2): ii246–55. DOI : 10.1093 / биоинформатики / btg1086 . PMID 14534198 . 
  18. ^ Шиндялов И.Н., Борн П.Е. (сентябрь 1998 г.). «Выравнивание структуры белка путем инкрементального комбинаторного удлинения (CE) оптимального пути» . Protein Eng . 11 (9): 739–47. DOI : 10,1093 / белок / 11.9.739 . PMID 9796821 . 
  19. ^ Bliven S, Прлич A (2012). «Круговая перестановка в белках» . PLoS Comput. Биол . 8 (3): e1002445. DOI : 10.1371 / journal.pcbi.1002445 . PMC 3320104 . PMID 22496628 .  
  20. ^ Роуз П.В., Беран Б., Би С. и др. (Январь 2011 г.). «Банк данных белка RCSB: обновленный веб-сайт и веб-сервисы» . Nucleic Acids Res . 39 (выпуск базы данных): D392–401. DOI : 10.1093 / NAR / gkq1021 . PMC 3013649 . PMID 21036868 .  
  21. ^ Прлич А., Бливен С., Роуз П. В. и др. (Декабрь 2010 г.). «Предварительно рассчитанные выравнивания структуры белков на сайте RCSB PDB» . Биоинформатика . 26 (23): 2983–5. DOI : 10.1093 / биоинформатики / btq572 . PMC 3003546 . PMID 20937596 .  
  22. ^ Bernstein FC, Koetzle TF, Williams GJ, et al. (Май 1977 г.). «Банк данных белков: компьютерный архивный файл макромолекулярных структур». J. Mol. Биол . 112 (3): 535–42. DOI : 10.1016 / s0022-2836 (77) 80200-3 . PMID 875032 . 
  23. ^ Фитцджеральд, PMD et al. (2006) Макромолекулярный словарь (mmCIF). В зале, SR
  24. ^ Velankar S, McNeil Р, Mittard-Runte В, и др. (Январь 2005 г.). «E-MSD: интегрированный ресурс данных для биоинформатики» . Nucleic Acids Res . 33 (выпуск базы данных): D262–5. DOI : 10.1093 / NAR / gki058 . PMC 540012 . PMID 15608192 .  
  25. ^ Besemer Дж, Бородовский М (июль 2005 г.). «GeneMark: веб-программа для поиска генов у прокариот, эукариот и вирусов» . Nucleic Acids Res . 33 (выпуск веб-сервера): W451–4. DOI : 10.1093 / NAR / gki487 . PMC 1160247 . PMID 15980510 .  
  26. Перейти ↑ Blanco E, Abril JF (2009). Вычислительная аннотация генов в новых сборках генома с использованием GeneID . Методы Мол. Биол . Методы молекулярной биологии. 537 . С. 243–61. DOI : 10.1007 / 978-1-59745-251-9_12 . ISBN 978-1-58829-910-9. PMID  19378148 .
  27. ^ Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (январь 2012). «Прогнозирование генов с помощью Glimmer для метагеномных последовательностей, дополненных классификацией и кластеризацией» . Nucleic Acids Res . 40 (1): e9. DOI : 10.1093 / NAR / gkr1067 . PMC 3245904 . PMID 22102569 .  
  28. ^ Stein LD, Mungall C, Shu S, et al. (Октябрь 2002 г.). «Универсальный браузер генома: строительный блок для базы данных системы модельного организма» . Genome Res . 12 (10): 1599–610. DOI : 10.1101 / gr.403602 . PMC 187535 . PMID 12368253 .  
  29. ^ Cock PJ, Поля CJ, Goto N, Heuer М.Л., Райс PM (апрель 2010). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa / Illumina FASTQ» . Nucleic Acids Res . 38 (6): 1767–71. DOI : 10.1093 / NAR / gkp1137 . PMC 2847217 . PMID 20015970 .  
  30. ^ Needleman SB, Вунч CD (март 1970). «Общий метод, применимый к поиску сходства в аминокислотной последовательности двух белков». J. Mol. Биол . 48 (3): 443–53. DOI : 10.1016 / 0022-2836 (70) 90057-4 . PMID 5420325 . 
  31. ^ Смит TF, Waterman MS (март 1981). «Идентификация общих молекулярных подпоследовательностей». J. Mol. Биол . 147 (1): 195–7. CiteSeerX 10.1.1.63.2897 . DOI : 10.1016 / 0022-2836 (81) 90087-5 . PMID 7265238 .  
  32. Guan X, Uberbacher EC (февраль 1996 г.). «Выравнивание последовательностей ДНК и белков, содержащих ошибки сдвига рамки» . Comput. Appl. Biosci . 12 (1): 31–40. DOI : 10.1093 / биоинформатики / 12.1.31 . PMID 8670617 . 
  33. ^ Chen K, Jung YS, Bonagura CA и др. (Февраль 2002 г.). «Azotobacter vinelandii ferredoxin I: подход сравнения последовательности и структуры для изменения потенциала восстановления [4Fe-4S] 2 + / +» . J. Biol. Chem . 277 (7): 5603–10. DOI : 10.1074 / jbc.M108916200 . PMID 11704670 . 
  34. ^ Монтекки-Палацци Л., Бивис Р., Бинц П.А. и др. (Август 2008 г.). «Стандарт сообщества PSI-MOD для представления данных о модификации белков». Nat. Biotechnol . 26 (8): 864–6. DOI : 10.1038 / nbt0808-864 . PMID 18688235 . 
  35. ^ Гаравелли JS (июнь 2004). «База данных модификаций белков RESID как ресурс и инструмент аннотации». Протеомика . 4 (6): 1527–33. DOI : 10.1002 / pmic.200300777 . PMID 15174122 . 
  36. ^ Берман Х.М., Вестбрук Дж., Фенг З. и др. (Январь 2000 г.). «Банк данных о белках» . Nucleic Acids Res . 28 (1): 235–42. DOI : 10.1093 / NAR / 28.1.235 . PMC 102472 . PMID 10592235 .  
  37. ^ Ян ZR, Thomson R, McNeil P, Esnouf RM (август 2005). «RONN: метод нейронной сети с био-базисной функцией, применяемый для обнаружения изначально неупорядоченных областей в белках» . Биоинформатика . 21 (16): 3369–76. DOI : 10.1093 / биоинформатики / bti534 . PMID 15947016 . 
  38. Перейти ↑ Finn RD, Clements J, Eddy SR (июль 2011 г.). «Веб-сервер HMMER: интерактивный поиск сходства последовательностей» . Nucleic Acids Res . 39 (выпуск веб-сервера): W29–37. DOI : 10.1093 / NAR / gkr367 . PMC 3125773 . PMID 21593126 .  
  39. Патерсон Т., Закон А (ноябрь 2012 г.). "JEnsembl: Java API с учетом версий для систем данных Ensembl" . Биоинформатика . 28 (21): 2724–31. DOI : 10.1093 / биоинформатики / bts525 . PMC 3476335 . PMID 22945789 .  
  40. ^ Ким Т., Тиндель М.С., Хуанг Х. и др. (Март 2012 г.). «MUSI: интегрированная система для определения множественной специфичности из очень больших наборов данных о пептидах или нуклеиновых кислотах» . Nucleic Acids Res . 40 (6): e47. DOI : 10.1093 / NAR / gkr1294 . PMC 3315295 . PMID 22210894 .  
  41. ^ Gront D, Kolinski A (февраль 2008). «Служебная библиотека для структурной биоинформатики» . Биоинформатика . 24 (4): 584–5. DOI : 10.1093 / биоинформатики / btm627 . PMID 18227118 . 

Внешние ссылки [ править ]

  • Официальный веб-сайт