Последовательность профилирование инструмента в биоинформатики является одним из видов программного обеспечения , которое представляет информацию , относящуюся к генетической последовательности, название гена или ввода ключевых слов. Такие инструменты обычно принимают запрос, такой как последовательность ДНК , РНК или белка , или «ключевое слово», и выполняют поиск в одной или нескольких базах данных.для информации, относящейся к этой последовательности. Сводные данные и сводные результаты представлены в стандартизированном формате с описанием информации, для сбора которой в противном случае потребовалось бы посещение многих небольших сайтов или прямой поиск литературы. Многие инструменты профилирования последовательностей представляют собой программные порталы или шлюзы, которые упрощают процесс поиска информации о запросе в большом и постоянно растущем количестве баз данных биоинформатики. Доступ к этим видам инструментов осуществляется либо через Интернет, либо через локально загружаемые исполняемые файлы.
Введение и использование
Эпоха « постгеномики » привела к появлению ряда веб-инструментов и программного обеспечения для компиляции, организации и доставки больших объемов информации о первичных последовательностях , а также структур белков , аннотаций генов, выравнивания последовательностей и других распространенных биоинформатических методов. задачи.
В общем, существует три типа баз данных и поставщиков услуг. Первый включает популярные общедоступные базы данных или базы данных с открытым доступом, поддерживаемые финансированием и грантами, такими как NCBI , ExPASy , Ensembl и PDB . Вторая включает меньшие или более конкретные базы данных, организованные и составленные отдельными исследовательскими группами. Примеры включают базу данных генома дрожжей , базу данных РНК . Третья и последняя включает частные корпоративные или институциональные базы данных, для доступа к которым требуется оплата или институциональная принадлежность. Такие примеры редки, учитывая глобализацию общедоступных баз данных, если только предполагаемая услуга не находится в стадии разработки или конечная точка анализа не имеет коммерческой ценности.
Типичные сценарии подхода к профилированию становятся актуальными, особенно в случаях первых двух групп, когда исследователи обычно хотят объединить информацию, полученную из нескольких источников, об одном запросе или целевой последовательности. Например, пользователи могут использовать инструмент выравнивания последовательностей и поиска BLAST, чтобы идентифицировать гомологи интересующего их гена у других видов, а затем использовать эти результаты для определения местоположения решенной белковой структуры для одного из гомологов. Кроме того , они могут также хотят знать вероятную вторичную структуру из мРНК , кодирующей интересующий ген, или продает ли компания в конструкцию ДНК , содержащую ген. Инструменты профилирования последовательности служат для автоматизации и интеграции процесса поиска такой разрозненной информации, делая процесс поиска в нескольких различных внешних базах данных прозрачным для пользователя.
Многие общедоступные базы данных уже имеют обширные связи, поэтому дополнительная информация в другой базе данных легко доступна; например, Genbank и PDB тесно взаимосвязаны. Однако специализированные инструменты, организованные и размещенные конкретными исследовательскими группами, могут быть трудными для интеграции в эту работу по связыванию, потому что они узко ориентированы, часто изменяются или используют пользовательские версии общих форматов файлов. Преимущества инструментов профилирования последовательностей включают в себя возможность использовать несколько из этих специализированных инструментов в одном запросе и представлять выходные данные с помощью общего интерфейса, возможность направлять выходные данные одного набора инструментов или поиск в базе данных во входные данные другого, а также способность распространять обязательства по размещению и компиляции в сети исследовательских групп и институтов, а не в одном централизованном хранилище.
Профилировщики на основе ключевых слов
Большинство инструментов профилирования, доступных сегодня в сети, попадают в эту категорию. Пользователь при посещении сайта / инструмента вводит любую релевантную информацию, такую как ключевое слово, например, дистрофия, диабет и т. Д., Или номера доступа GenBank , PDB ID. Все релевантные результаты поиска представлены в формате, уникальном для каждого инструмента. Инструменты профилирования, основанные на поиске по ключевым словам, по сути, представляют собой поисковые системы , которые в высшей степени специализированы для работы в области биоинформатики, тем самым устраняя беспорядок нерелевантных или ненаучных обращений, которые могут возникнуть с традиционной поисковой системой, такой как Google . Большинство инструментов профилирования на основе ключевых слов допускают гибкие типы ввода ключевых слов, номеров доступа из индексированных баз данных, а также традиционные дескрипторы ключевых слов.
Каждый инструмент профилирования имеет свою направленность и область интересов. Например, поисковая машина NCBI Entrez разделяет свои совпадения по категориям, так что пользователи, ищущие информацию о структуре белка, могут отсеивать последовательности без соответствующей структуры, в то время как пользователи, заинтересованные в просмотре литературы по теме, могут просматривать отрывки из статей, опубликованных в научных журналах. не отвлекаясь от результатов гена или последовательности. База данных литературы по бионаукам PubMed - популярный инструмент для поиска литературы, хотя этот сервис почти равен более общему сервису Google Scholar .
Службы агрегации данных на основе ключевых слов, такие как Bioinformatic Harvester, предоставляют отчеты с различных сторонних серверов в формате « как есть» , поэтому пользователям не нужно посещать веб-сайт или устанавливать программное обеспечение для каждой отдельной компонентной службы. Это особенно бесценно, учитывая быстрое появление различных сайтов, предоставляющих различные инструменты для анализа последовательностей и манипуляций. Другой агрегированный веб-портал, Справочная база данных белков человека ( Hprd ), содержит вручную аннотированные и тщательно отобранные записи для белков человека. Таким образом, предоставляемая информация является выборочной и исчерпывающей, а формат запроса - гибким и интуитивно понятным. Плюсы разработки вручную курируемых баз данных включают представление корректируемого материала и концепцию «молекулярных авторитетов», которые берут на себя ответственность за определенные белки. Однако минусы в том, что они, как правило, обновляются медленнее и могут не содержать очень новых или спорных данных.
Профилировщики на основе данных последовательности
Типичный инструмент профилирования последовательностей выполняет это дальше, используя фактическую последовательность ДНК, РНК или белка в качестве входных данных, и позволяет пользователю посещать различные веб-инструменты анализа для получения желаемой информации. Такие инструменты также обычно поставляются с коммерческим лабораторным оборудованием, таким как секвенаторы генов, или иногда продаются как программные приложения для молекулярной биологии. В другом примере общедоступной базы данных отчет о поиске последовательности BLAST от NCBI предоставляет ссылку из своего отчета о сопоставлении на другую релевантную информацию в его собственных базах данных, если такая конкретная информация существует.
Например, извлеченная запись, содержащая последовательность человека, будет содержать отдельную ссылку, которая соединяет ее местоположение на карте генома человека; запись, содержащая последовательность, для которой была решена трехмерная структура, будет содержать ссылку, которая соединяет ее с ее базой данных структур. Sequerome , инструмент общедоступной службы, связывает весь отчет BLAST со многими сторонними серверами / сайтами, которые предоставляют высокоспецифичные службы для манипуляций с последовательностями, такие как карты рестрикционных ферментов , анализ открытых рамок считывания для нуклеотидных последовательностей и предсказание вторичной структуры . Инструмент обеспечивает дополнительное преимущество в виде ведения журнала исследований операций, выполняемых пользователем, который затем может быть удобно заархивирован с помощью функций «почта», «печать» или «сохранение». Таким образом, вся операция по исследованию последовательности с использованием различных исследовательских инструментов и, таким образом, доведение проекта до его завершения, может быть завершена в одном интерфейсе браузера. Следовательно, будущее поколение инструментов для профилирования последовательностей будет включать в себя возможность совместной работы в Интернете с исследователями для обмена журналами проектов и исследовательских инструментов, аннотирования результатов анализа последовательностей или лабораторных работ, настройки и автоматизации обработки наборов данных последовательностей и т. Д. InstaSeq - это программа на базе Google. инструмент поиска, который позволяет пользователю напрямую вводить последовательность и искать во всей всемирной паутине. Эта уникальная поисковая система, единственная в своем роде, отличается от поиска в конкретных базах данных, например, GenBank .
В результате пользователь может получить документ или страницу из менее известной базы данных практически из любой точки мира. Хотя профилировщиков на основе последовательностей в настоящем сценарии мало, их ключевая роль станет очевидной, когда потребуется перекрестная обработка огромных объемов данных последовательностей между порталами и доменами.
Будущий рост и направления
Распространение инструментов биоинформатики для генетического анализа помогает исследователям определять и классифицировать гены и наборы генов, представляющие интерес для их работы; однако большое количество инструментов, которые выполняют в основном схожие агрегатные и аналитические функции, также могут сбивать с толку и расстраивать новых пользователей. Децентрализация, поощряемая агрегированными инструментами, позволяет отдельным исследовательским группам поддерживать специализированные серверы, выделенные для конкретных типов анализа данных, в ожидании, что их результаты будут собраны в более крупный отчет о гене или белке, представляющем интерес для других исследователей.
Данные, полученные в результате экспериментов с микрочипами, двухгибридного скрининга и других высокопроизводительных биологических экспериментов, объемны и их трудно анализировать вручную; Усилия сотрудничества структурной геномики , нацеленные на быстрое решение большого количества очень разнообразных белковых структур, также увеличивают потребность в интеграции между базами данных последовательностей и структур и порталами. Этот импульс к разработке более всеобъемлющих и более удобных для пользователя методов профилирования последовательностей делает эту область активной области исследований среди нынешних исследователей геномики.
Смотрите также
Рекомендации
- Пери С., Наварро Дж. Д., Кристиансен Т. З. и др. (Январь 2004 г.). «Справочная база данных белков человека как ресурс для открытия протеомики» . Nucleic Acids Res . 32 (Выпуск базы данных): D497–501. DOI : 10.1093 / NAR / gkh070 . PMC 308804 . PMID 14681466 .
- Liebel U; Киндлер Б; Pepperkok R (август 2004 г.). « ' Harvester': быстрый мета-поисковик человеческих ресурсов белка» . Биоинформатика . 20 (12): 1962–3. DOI : 10.1093 / биоинформатики / bth146 . PMID 14988114 .
- Ganesan N; Беннетт Н.Ф .; Velauthapillai M; Паттабираман Н; Squier R; Калянасундарам Б. (август 2005 г.). «Веб-интерфейс, облегчающий структурный анализ отчетов о сопоставлении BLAST» . Биотехнологии . 39 (2): 186, 188. DOI : 10,2144 / 05392BM05 . PMID 16116790 .
- Битон Дж; Смит С. (ноябрь 2005 г.). «Google против PubMed» . Ann R Coll Surg Engl . 87 (6): 491–2. DOI : 10.1308 / 003588405X71207 . PMC 1964102 . PMID 16263030 .
- Хантер Л; Коэн КБ (март 2006 г.). «Биомедицинская языковая обработка: что дальше PubMed?» . Мол. Cell . 21 (5): 589–94. DOI : 10.1016 / j.molcel.2006.02.012 . PMC 1702322 . PMID 16507357 .
- Ganesan N; Кальянасундарам Б; Velauthapillai M (март 2007 г.). «Инструменты профилирования данных биоинформатики: прелюдия к метаболическому профилированию». Pac. Symp. Биокомпьют. : 127–32. PMID 17990486 .