Инструмент профилирования последовательности

Последовательность профилирование инструмента в биоинформатики является одним из видов программного обеспечения , которое представляет информацию , относящуюся к генетической последовательности, название гена или ввода ключевых слов. Такие инструменты обычно принимают запрос, такой как последовательность ДНК , РНК или белка , или «ключевое слово», и выполняют поиск в одной или нескольких базах данных.для информации, относящейся к этой последовательности. Сводные данные и сводные результаты представлены в стандартизированном формате с описанием информации, для сбора которой в противном случае потребовалось бы посещение многих небольших сайтов или прямой поиск литературы. Многие инструменты профилирования последовательностей представляют собой программные порталы или шлюзы, которые упрощают процесс поиска информации о запросе в большом и постоянно растущем количестве баз данных биоинформатики. Доступ к этим видам инструментов осуществляется либо через Интернет, либо через локально загружаемые исполняемые файлы.

Введение и использование

Эпоха « постгеномики » привела к появлению ряда веб-инструментов и программного обеспечения для компиляции, организации и доставки больших объемов информации о первичных последовательностях , а также структур белков , аннотаций генов, выравнивания последовательностей и других распространенных биоинформатических методов. задачи.

В общем, существует три типа баз данных и поставщиков услуг. Первый включает популярные общедоступные базы данных или базы данных с открытым доступом, поддерживаемые финансированием и грантами, такими как NCBI , ExPASy , Ensembl и PDB . Вторая включает меньшие или более конкретные базы данных, организованные и составленные отдельными исследовательскими группами. Примеры включают базу данных генома дрожжей , базу данных РНК . Третья и последняя включает частные корпоративные или институциональные базы данных, для доступа к которым требуется оплата или институциональная принадлежность. Такие примеры редки, учитывая глобализацию общедоступных баз данных, если только предполагаемая услуга не находится в стадии разработки или конечная точка анализа не имеет коммерческой ценности.

Типичные сценарии подхода к профилированию становятся актуальными, особенно в случаях первых двух групп, когда исследователи обычно хотят объединить информацию, полученную из нескольких источников, об одном запросе или целевой последовательности. Например, пользователи могут использовать инструмент выравнивания последовательностей и поиска BLAST, чтобы идентифицировать гомологи интересующего их гена у других видов, а затем использовать эти результаты для определения местоположения решенной белковой структуры для одного из гомологов. Кроме того , они могут также хотят знать вероятную вторичную структуру из мРНК , кодирующей интересующий ген, или продает ли компания в конструкцию ДНК , содержащую ген. Инструменты профилирования последовательности служат для автоматизации и интеграции процесса поиска такой разрозненной информации, делая процесс поиска в нескольких различных внешних базах данных прозрачным для пользователя.

Многие общедоступные базы данных уже имеют обширные связи, поэтому дополнительная информация в другой базе данных легко доступна; например, Genbank и PDB тесно взаимосвязаны. Однако специализированные инструменты, организованные и размещенные конкретными исследовательскими группами, могут быть трудными для интеграции в эту работу по связыванию, потому что они узко ориентированы, часто изменяются или используют пользовательские версии общих форматов файлов. Преимущества инструментов профилирования последовательностей включают в себя возможность использовать несколько из этих специализированных инструментов в одном запросе и представлять выходные данные с помощью общего интерфейса, возможность направлять выходные данные одного набора инструментов или поиск в базе данных во входные данные другого, а также способность распространять обязательства по размещению и компиляции в сети исследовательских групп и институтов, а не в одном централизованном хранилище.

Профилировщики на основе ключевых слов

Большинство инструментов профилирования, доступных сегодня в сети, попадают в эту категорию. Пользователь при посещении сайта / инструмента вводит любую релевантную информацию, такую как ключевое слово, например, дистрофия, диабет и т. Д., Или номера доступа GenBank , PDB ID. Все релевантные результаты поиска представлены в формате, уникальном для каждого инструмента. Инструменты профилирования, основанные на поиске по ключевым словам, по сути, представляют собой поисковые системы , которые в высшей степени специализированы для работы в области биоинформатики, тем самым устраняя беспорядок нерелевантных или ненаучных обращений, которые могут возникнуть с традиционной поисковой системой, такой как Google . Большинство инструментов профилирования на основе ключевых слов допускают гибкие типы ввода ключевых слов, номеров доступа из индексированных баз данных, а также традиционные дескрипторы ключевых слов.

Каждый инструмент профилирования имеет свою направленность и область интересов. Например, поисковая машина NCBI Entrez разделяет свои совпадения по категориям, так что пользователи, ищущие информацию о структуре белка, могут отсеивать последовательности без соответствующей структуры, в то время как пользователи, заинтересованные в просмотре литературы по теме, могут просматривать отрывки из статей, опубликованных в научных журналах. не отвлекаясь от результатов гена или последовательности. База данных литературы по бионаукам PubMed - популярный инструмент для поиска литературы, хотя этот сервис почти равен более общему сервису Google Scholar .

Службы агрегации данных на основе ключевых слов, такие как Bioinformatic Harvester, предоставляют отчеты с различных сторонних серверов в формате « как есть» , поэтому пользователям не нужно посещать веб-сайт или устанавливать программное обеспечение для каждой отдельной компонентной службы. Это особенно бесценно, учитывая быстрое появление различных сайтов, предоставляющих различные инструменты для анализа последовательностей и манипуляций. Другой агрегированный веб-портал, Справочная база данных белков человека ( Hprd ), содержит вручную аннотированные и тщательно отобранные записи для белков человека. Таким образом, предоставляемая информация является выборочной и исчерпывающей, а формат запроса - гибким и интуитивно понятным. Плюсы разработки вручную курируемых баз данных включают представление корректируемого материала и концепцию «молекулярных авторитетов», которые берут на себя ответственность за определенные белки. Однако минусы в том, что они, как правило, обновляются медленнее и могут не содержать очень новых или спорных данных.

Профилировщики на основе данных последовательности

Типичный инструмент профилирования последовательностей выполняет это дальше, используя фактическую последовательность ДНК, РНК или белка в качестве входных данных, и позволяет пользователю посещать различные веб-инструменты анализа для получения желаемой информации. Такие инструменты также обычно поставляются с коммерческим лабораторным оборудованием, таким как секвенаторы генов, или иногда продаются как программные приложения для молекулярной биологии. В другом примере общедоступной базы данных отчет о поиске последовательности BLAST от NCBI предоставляет ссылку из своего отчета о сопоставлении на другую релевантную информацию в его собственных базах данных, если такая конкретная информация существует.

Например, извлеченная запись, содержащая последовательность человека, будет содержать отдельную ссылку, которая соединяет ее местоположение на карте генома человека; запись, содержащая последовательность, для которой была решена трехмерная структура, будет содержать ссылку, которая соединяет ее с ее базой данных структур. Sequerome , инструмент общедоступной службы, связывает весь отчет BLAST со многими сторонними серверами / сайтами, которые предоставляют высокоспецифичные службы для манипуляций с последовательностями, такие как карты рестрикционных ферментов , анализ открытых рамок считывания для нуклеотидных последовательностей и предсказание вторичной структуры . Инструмент обеспечивает дополнительное преимущество в виде ведения журнала исследований операций, выполняемых пользователем, который затем может быть удобно заархивирован с помощью функций «почта», «печать» или «сохранение». Таким образом, вся операция по исследованию последовательности с использованием различных исследовательских инструментов и, таким образом, доведение проекта до его завершения, может быть завершена в одном интерфейсе браузера. Следовательно, будущее поколение инструментов для профилирования последовательностей будет включать в себя возможность совместной работы в Интернете с исследователями для обмена журналами проектов и исследовательских инструментов, аннотирования результатов анализа последовательностей или лабораторных работ, настройки и автоматизации обработки наборов данных последовательностей и т. Д. InstaSeq - это программа на базе Google. инструмент поиска, который позволяет пользователю напрямую вводить последовательность и искать во всей всемирной паутине. Эта уникальная поисковая система, единственная в своем роде, отличается от поиска в конкретных базах данных, например, GenBank .

В результате пользователь может получить документ или страницу из менее известной базы данных практически из любой точки мира. Хотя профилировщиков на основе последовательностей в настоящем сценарии мало, их ключевая роль станет очевидной, когда потребуется перекрестная обработка огромных объемов данных последовательностей между порталами и доменами.

Будущий рост и направления

Распространение инструментов биоинформатики для генетического анализа помогает исследователям определять и классифицировать гены и наборы генов, представляющие интерес для их работы; однако большое количество инструментов, которые выполняют в основном схожие агрегатные и аналитические функции, также могут сбивать с толку и расстраивать новых пользователей. Децентрализация, поощряемая агрегированными инструментами, позволяет отдельным исследовательским группам поддерживать специализированные серверы, выделенные для конкретных типов анализа данных, в ожидании, что их результаты будут собраны в более крупный отчет о гене или белке, представляющем интерес для других исследователей.

Данные, полученные в результате экспериментов с микрочипами, двухгибридного скрининга и других высокопроизводительных биологических экспериментов, объемны и их трудно анализировать вручную; Усилия сотрудничества структурной геномики , нацеленные на быстрое решение большого количества очень разнообразных белковых структур, также увеличивают потребность в интеграции между базами данных последовательностей и структур и порталами. Этот импульс к разработке более всеобъемлющих и более удобных для пользователя методов профилирования последовательностей делает эту область активной области исследований среди нынешних исследователей геномики.

Инструмент профилирования последовательности

Введение и использование

Профилировщики на основе ключевых слов

Профилировщики на основе данных последовательности

Будущий рост и направления

Смотрите также

Рекомендации