Интегративная биоинформатика - это дисциплина биоинформатики, которая фокусируется на проблемах интеграции данных для наук о жизни .
С развитием технологий высокой пропускной способности (HTP) в науках о жизни, особенно в молекулярной биологии , объем собираемых данных растет экспоненциально. Кроме того, данные разбросаны по множеству как публичных, так и частных репозиториев и хранятся в большом количестве различных форматов . Эта ситуация затрудняет поиск этих данных и выполнение анализа, необходимого для извлечения новых знаний из полного набора имеющихся данных. Интегративная биоинформатика пытается решить эту проблему, обеспечивая единый доступ к данным науки о жизни.
Подходы
Семантические веб-подходы
В подходе семантической паутины поиск данных с нескольких веб-сайтов или баз данных осуществляется с помощью метаданных . Метаданные - это машиночитаемый код, который определяет содержимое страницы для программы, чтобы сравнение данных и условий поиска было более точным. Это помогает уменьшить количество нерелевантных или бесполезных результатов. Некоторые метаданные существуют в виде определений, называемых онтологиями , которые могут быть помечены как пользователями, так и программами; они служат для облегчения поиска за счет использования ключевых терминов или фраз для поиска и возврата данных. [1] Преимущества этого подхода включают в себя общее повышенное качество данных, возвращаемых при поиске, и при правильном тегировании онтологии, находящие записи, которые могут не указывать явно поисковый термин, но все же актуальны. Одним из недостатков этого подхода является то, что возвращаемые результаты приходят в формате базы данных их происхождения, и поэтому прямое сравнение может быть затруднено. Другая проблема заключается в том, что термины, используемые в тегах и поиске, иногда могут быть двусмысленными и могут вызвать путаницу в результатах. [2] Кроме того, семантический веб-подход все еще считается новой технологией и в настоящее время не широко используется. [3]
Одним из текущих приложений поиска на основе онтологий в биомедицинских науках является GoPubMed , который выполняет поиск в базе данных научной литературы PubMed . [1] Другое использование онтологий находится в таких базах данных, как SwissProt , Ensembl и TrEMBL , которые используют эту технологию для поиска в хранилищах данных, связанных с протеомом человека, тегов, связанных с поисковым термином. [4]
Некоторые исследования в этой области были сосредоточены на создании новых специфических онтологий. [5] Другие исследователи работали над проверкой результатов существующих онтологий. [2] В конкретном примере цель Verschelde, et al. была интеграция нескольких различных онтологических библиотек в более крупную библиотеку, которая содержала больше определений различных узкоспециализированных областей (медицинских, молекулярно-биологических и т. д.) и могла различать неоднозначные теги; В результате получился эффект, подобный хранилищу данных, с легким доступом к нескольким базам данных за счет использования онтологий. [4] В отдельном проекте Bertens et al. построил решетчатую работу трех онтологий (для анатомии и разработки модельных организмов) на новой онтологии каркаса родовых органов. Например, результаты поиска «сердца» в этой онтологии вернут планы сердца для каждого из видов позвоночных, онтологии которых были включены. Заявленная цель проекта - способствовать сравнительным и эволюционным исследованиям. [6]
Подходы к хранилищу данных
В стратегии хранилища данных данные из разных источников извлекаются и интегрируются в единую базу данных. Например, различные наборы данных «омикс» могут быть интегрированы для обеспечения биологической информации о биологических системах. Примеры включают данные из геномики, транскриптомики, протеомики, интерактомики, метаболомики. В идеале изменения в этих источниках регулярно синхронизируются с интегрированной базой данных. Данные предоставляются пользователям в едином формате. Многие программы, призванные помочь в создании таких складов, разработаны так, чтобы быть чрезвычайно универсальными, чтобы их можно было реализовать в различных исследовательских проектах. [7] Одним из преимуществ этого подхода является то, что данные доступны для анализа на одном сайте с использованием единой схемы. Некоторые недостатки заключаются в том, что наборы данных часто огромны, и их сложно поддерживать в актуальном состоянии. Еще одна проблема с этим методом состоит в том, что создание такого склада обходится дорого. [8]
Стандартизованные форматы для различных типов данных (например, данных о белках) в настоящее время появляются из-за влияния таких групп, как Proteomics Standards Initiative (PSI). Некоторые проекты хранилищ данных даже требуют представления данных в одном из этих новых форматов. [9]
Другие подходы
Интеллектуальный анализ данных использует статистические методы для поиска закономерностей в существующих данных. Этот метод обычно возвращает множество шаблонов, некоторые из которых являются ложными, а некоторые значимыми, но все шаблоны, которые обнаруживает программа, должны оцениваться индивидуально. В настоящее время некоторые исследования сосредоточены на объединении существующих методов интеллектуального анализа данных с новыми методами анализа шаблонов, которые сокращают необходимость тратить время на просмотр каждого шаблона, обнаруженного первоначальной программой, но вместо этого возвращают несколько результатов с высокой вероятностью релевантности. [10] Одним из недостатков этого подхода является то, что он не интегрирует несколько баз данных, а это означает, что сравнения между базами данных невозможны. Основное преимущество этого подхода состоит в том, что он позволяет генерировать новые гипотезы для проверки.
Смотрите также
- Биологическая база данных
- Визуализация биологических данных
- InterMine - система хранилища биологических данных с открытым исходным кодом
Рекомендации
- ^ a b Doms, A .; Шредер, М. (2005). «GoPubMed: изучение PubMed с помощью генной онтологии» (PDF) . Исследования нуклеиновых кислот . 33 (выпуск веб-сервера): W783–6. DOI : 10.1093 / NAR / gki470 . PMC 1160231 . PMID 15980585 . Проверено 28 сентября 2012 года .
- ^ а б Ван Офуизен, EAA & Leunissen, JAM (2010). «Оценка эффективности трех источников семантических фоновых знаний в сравнительной анатомии». Журнал интегративной биоинформатики. Проверено 28 октября 2012 года.
- ^ Руттенберг и др. (2007). «Продвижение трансляционных исследований с помощью семантической сети». BMC Bioinformatics. Проверено 28 сентября 2012 г.
- ^ a b Verschelde, et al. (2007). «Интеграция баз данных с помощью онтологов для поддержки обработки естественного языка и биомедицинского анализа данных». Журнал интегративной биоинформатики. Проверено 28 октября 2012 года.
- ^ Кастильо и др. (2012). «Построение сетей транскриптомов кофе на основе семантики аннотаций генов». Журнал интегративной биоинформатики. Проверено 29 октября 2012 года.
- ^ Бертенс и др. (2011). «Общий орган, основанный на системе онтологии, применяемой к анатомии, развитию и физиологии сердца позвоночных». Журнал интегративной биоинформатики. Проверено 30 октября 2012 года.
- ^ Шах и др. (2005). «Атлас - хранилище данных для интегративной биоинформатики». BMC Bioinformatics. Проверено 30 сентября 2012 года.
- ^ Kuenne и др. (2007). «Использование технологии хранилищ данных в биоинформатике сельскохозяйственных культур». Журнал интегративной биоинформатики. Проверено 30 сентября 2012 года.
- ^ Тиле и др. (2010). «Стратегии биоинформатики в науках о жизни: от обработки и хранения данных до извлечения биологических знаний». Журнал интегративной биоинформатики. Проверено 29 октября 2012 года.
- ^ Belmamoune, et al. (2010). «Добыча и анализ пространственно-временных паттернов экспрессии генов в интегрированной базе данных». Журнал интегративной биоинформатики. Проверено 27 октября 2012 года.
Внешние ссылки
- Журнал интегративной биоинформатики
- IMBio
- GoPubMed
- BMC Bioinformatics
- Нидерландский центр биоинформатики