Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Galaxy [2] представляет собой научный рабочий процесс , интеграция данных , [3] [4] и данные и анализ живучесть и публикацию платформа , которая стремится сделать вычислительную биологию доступной для исследования ученых , которые не имеют компьютерное программирование или администрирования системы опыта. Хотя изначально он был разработан для исследований в области геномики, он в значительной степени не зависит от предметной области и теперь используется в качестве общей системы управления рабочим процессом биоинформатики . [5]

Функциональность [ править ]

Galaxy - это система научного документооборота . Эти системы предоставляют средства для построения многоэтапных вычислительных анализов, подобных рецепту. Обычно они предоставляют графический пользовательский интерфейс [6] для указания, с какими данными работать, какие шаги нужно предпринять и в каком порядке их делать.

Galaxy также является платформой для интеграции биологических данных. Он поддерживает загрузку данных с компьютера пользователя по URL-адресу и напрямую из многих онлайн-ресурсов (таких как браузер генома UCSC , BioMart и InterMine ). Galaxy поддерживает ряд широко используемых форматов биологических данных и перевод между этими форматами. Galaxy предоставляет веб-интерфейс для многих утилит для работы с текстом, позволяя исследователям выполнять собственное переформатирование и манипуляции без программирования . Galaxy включает в себя утилиты управления интервалом для выполнения теоретико-множественных операций (например, пересечение ,объединение , ...) на интервалах. Многие форматы биологических файлов включают данные геномных интервалов (систему отсчета, например, имя хромосомы или контига , а также начальную и конечную позиции), что позволяет интегрировать эти данные.

Изначально Galaxy был написан для анализа биологических данных, особенно геномики . Набор доступных инструментов был значительно расширен за прошедшие годы, и теперь Galaxy также используется для экспрессии генов , сборки генома , протеомики , эпигеномики , транскриптомики и множества других дисциплин в науках о жизни. Сама платформа фактически не зависит от предметной области и теоретически может быть применена к любой научной области, такой как хеминформатика . [7] Например, серверы Galaxy существуют для анализа изображений [8] вычислительной химии [9] и разработки лекарств [10]космология, моделирование климата, социальные науки [11] и лингвистика.

Наконец, Galaxy также поддерживает сохранение и публикацию данных и анализа. См. Воспроизводимость и Прозрачность ниже.

Цели проекта [ править ]

Galaxy - это «открытая веб-платформа для выполнения доступной, воспроизводимой и прозрачной геномной науки». [12]

Доступность [ править ]

Вычислительная биология - это специализированная область, которая часто требует знания компьютерного программирования . Galaxy стремится предоставить исследователям-биомедикам доступ к вычислительной биологии, не требуя от них понимания компьютерного программирования. [13] [14] Galaxy делает это, делая упор на простой пользовательский интерфейс [15], а не на возможность создания сложных рабочих процессов. Такой выбор конструкции позволяет относительно легко строить типовые анализы, но труднее строить сложные рабочие процессы, которые включают, например, циклические конструкции. (См. В Apache Taverna пример системы рабочего процесса, управляемого данными, который поддерживает цикл. [16] )

Воспроизводимость [ править ]

Воспроизводимость - ключевая цель науки: когда публикуются научные результаты, публикации должны включать достаточно информации, чтобы другие могли повторить эксперимент и получить те же результаты. В последнее время было предпринято множество попыток расширить эту цель со стенда (« мокрая лаборатория ») до вычислительных экспериментов (« сухая лаборатория »). Это оказалось более сложной задачей, чем предполагалось изначально. [17]

Galaxy поддерживает воспроизводимость, собирая достаточную информацию о каждом шаге вычислительного анализа, так что анализ может быть повторен точно в любой момент в будущем. Это включает отслеживание всех входных, промежуточных и окончательных наборов данных, а также предоставленных параметров и порядка каждого шага анализа.

Прозрачность [ править ]

Galaxy поддерживает прозрачность научных исследований, позволяя исследователям делиться любыми объектами Galaxy публично или с конкретными людьми. Общие элементы можно детально изучить, повторно запустить по желанию, скопировать и изменить для проверки гипотез.

Объекты Galaxy: истории, рабочие процессы, наборы данных и страницы [ править ]

Объекты Galaxy - это все, что можно сохранить, сохранить и поделиться в Galaxy:

Истории
Истории - это вычислительные анализы (рецепты), выполняемые с заданными наборами входных данных, вычислительными шагами и параметрами. Истории также включают все промежуточные и выходные наборы данных.
Рабочие процессы
Рабочие процессы - это вычислительные анализы, которые определяют все этапы (и параметры) анализа, но не данные. Рабочие процессы используются для выполнения одного и того же анализа нескольких наборов входных данных.
Наборы данных
Наборы данных включают любой набор входных, промежуточных или выходных данных, используемый или созданный в анализе.
Страницы
Истории, рабочие процессы и наборы данных могут включать аннотации, предоставленные пользователем. Galaxy Pages позволяет создать виртуальный документ, в котором описывается, как и почему в целом эксперимент. Этой цели способствует тесная интеграция страниц с историями, рабочими процессами и наборами данных.

Доступность [ править ]

Galaxy доступно:

  1. В качестве бесплатного общедоступного веб-сервера [18], поддерживаемого проектом Galaxy. [19] Этот сервер включает в себя множество инструментов биоинформатики, которые широко используются во многих областях геномных исследований. Пользователи могут создавать логины и сохранять истории , рабочие процессы и наборы данных на сервере. Этими сохраненными элементами также можно поделиться с другими.
  2. Как программное обеспечение с открытым исходным кодом, которое можно загрузить, установить и настроить для удовлетворения конкретных потребностей. [20] Galaxy можно установить локально или с помощью вычислительного облака . [21]
  3. Общедоступные веб-серверы, размещенные другими организациями. [22] Несколько организаций, у которых есть собственная установка Galaxy, также решили сделать эти серверы доступными для других.

Реализация [ править ]

Galaxy - это программное обеспечение с открытым исходным кодом, реализованное с использованием языка программирования Python . Он разработан командой Galaxy [23] из штата Пенсильвания , Университета Джона Хопкинса , Орегонского университета здравоохранения и науки и сообщества Galaxy . [24]

Galaxy является расширяемым, поскольку новые инструменты командной строки могут быть интегрированы и совместно использованы в Galaxy ToolShed . [25]

Примером расширения Galaxy является Galaxy-P от института суперкомпьютеров Миннесотского университета , который настроен как платформа анализа данных для протеомики на основе масс-спектрометрии . [26]

Сообщество [ править ]

Galaxy - это проект с открытым исходным кодом, и в сообщество входят пользователи, организации, устанавливающие свои собственные экземпляры, разработчики Galaxy и разработчики инструментов биоинформатики. У проекта Galaxy есть списки рассылки [27], центр сообщества [28] и ежегодные встречи. [29]

См. Также [ править ]

  • Системы управления рабочим процессом биоинформатики

Ссылки [ править ]

  1. ^ «Авторские права и лицензии» .
  2. ^ Afgan, E .; Baker, D .; ван ден Бик, М .; Бланкенберг, Д .; Bouvier, D .; Čech, M .; Чилтон, Дж .; Clements, D .; Coraor, N .; Эберхард, С .; Grüning, B .; Guerler, A .; Hillman-Jackson, J .; Von Kuster, G .; Rasche, E .; Soranzo, N .; Турага, Н .; Taylor, J .; Некрутенко, А .; Гокс, Дж. (8 июля 2016 г.). «Платформа Galaxy для доступных, воспроизводимых и совместных биомедицинских анализов: обновление 2016 г.» . Исследования нуклеиновых кислот . 44 (W1): W3 – W10. DOI : 10.1093 / NAR / gkw343 . PMC 4987906 . PMID 27137889 .  
  3. ^ Бланкенберг, Д .; Coraor, N .; Von Kuster, G .; Taylor, J .; Некрутенко, А .; Галактика, Т. (2011). «Интеграция различных баз данных в единую аналитическую структуру: подход Galaxy» . База данных . 2011 : bar011. DOI : 10,1093 / базы данных / bar011 . PMC 3092608 . PMID 21531983 .  
  4. ^ Бланкенберг, Д .; Гордон, А .; Von Kuster, G .; Coraor, N .; Taylor, J .; Некрутенко, А .; Галактика, Т. (2010). «Манипулирование данными FASTQ с помощью Galaxy» . Биоинформатика . 26 (14): 1783–1785. DOI : 10.1093 / биоинформатики / btq281 . PMC 2894519 . PMID 20562416 .  
  5. ^ https://galaxyproject.org/public-galaxy-servers
  6. ^ Schatz, MC (2010). «Отсутствующий графический пользовательский интерфейс для геномики» . Геномная биология . 11 (8): 128–201. DOI : 10.1186 / GB-2010-11-8-128 . PMC 2945776 . PMID 20804568 .  
  7. ^ Брей, Саймон А .; Лукас, Ксавьер; Кумар, Ануп; Грюнинг, Бьорн А. (1 июня 2020 г.). «The ChemicalToolbox: воспроизводимый, удобный хеминформатический анализ на платформе Galaxy» . Журнал химинформатики . 12 (1). DOI : 10,1186 / s13321-020-00442-7 .
  8. ^ https://bio.tools/galaxy_image_analysis
  9. ^ Хильдебрандт, AK; Штёкель, Д.; Фишер, Нью-Мексико; де ла Гарса, L; Krüger, J; Никели, S; Рёттиг, М; Schärfe, C; Шуман, М; Тиль, П; Ленгоф, HP; Кольбахер, О; Хильдебрандт, А (2014). "Ballaxy: Веб-сервисы для структурной биоинформатики" . Биоинформатика . 31 (1): 121–2. DOI : 10.1093 / биоинформатики / btu574 . PMID 25183489 . 
  10. ^ "Архивная копия" . Архивировано из оригинала на 2016-05-07 . Проверено 17 ноября 2014 .CS1 maint: заархивированная копия как заголовок ( ссылка )
  11. ^ "Галактика" .
  12. ^ Goecks, J .; Некрутенко, А .; Taylor, J .; Команда Галактики, Т. (2010). «Galaxy: комплексный подход к поддержке доступных, воспроизводимых и прозрачных вычислительных исследований в науках о жизни» . Геномная биология . 11 (8): R86. DOI : 10.1186 / ГБ-2010-11-8-r86 . PMC 2945788 . PMID 20738864 .  
  13. ^ Бланкенберг, Д .; Taylor, J .; Некрутенко, А .; Галактика, Т. (2011). «Создание нескольких выравниваний всего генома, пригодных для использования биологами» . Биоинформатика . 27 (17): 2426–8. DOI : 10.1093 / биоинформатики / btr398 . PMC 3157923 . PMID 21775304 .  
  14. ^ Бланкенберг, Д .; Taylor, J .; Schenck, I .; He, J .; Zhang, Y .; Гент, М .; Veeraraghavan, N .; Альберт, I .; Miller, W .; Макова, К.Д .; Hardison, RC; Некрутенко, А. (2007). «Структура для совместного анализа данных ENCODE: создание крупномасштабных анализов, удобных для биологов» . Геномные исследования . 17 (6): 960–964. DOI : 10.1101 / gr.5578007 . PMC 1891355 . PMID 17568012 .  
  15. ^ Schatz, MC (2010). «Отсутствующий графический пользовательский интерфейс для геномики» . Геномная биология . 11 (8): 128–201. DOI : 10.1186 / GB-2010-11-8-128 . PMC 2945776 . PMID 20804568 .  
  16. ^ Soiland-Рейес, S (2010-12-13). «Зацикливание» . Блог знаний таверны . knowledgeblog.org. Архивировано из оригинала на 30 декабря 2016 года . Проверено 28 января 2015 .
  17. ^ Иоаннидис, JPA; Эллисон, ДБ; Болл, Калифорния; Кулибали, I .; Cui, X .; Калхейн, АНК; Falchi, M .; Furlanello, C .; Game, L .; Jurman, G .; Mangion, J .; Mehta, T .; Ницберг, М .; Пейдж, GP; Petretto, E .; Ван Ноорт, В. (2008). «Повторяемость опубликованных анализов экспрессии генов микрочипов». Генетика природы . 41 (2): 149–155. DOI : 10.1038 / ng.295 . PMID 19174838 . S2CID 5153795 .  
  18. ^ https://usegalaxy.org/
  19. ^ http://galaxyproject.org/
  20. ^ http://getgalaxy.org/
  21. ^ Afgan, E .; Baker, D .; Coraor, N .; Chapman, B .; Некрутенко, А .; Тейлор, Дж. (2010). «Galaxy CloudMan: предоставление кластеров облачных вычислений» . BMC Bioinformatics . 11 : S4. DOI : 10.1186 / 1471-2105-11-S12-S4 . PMC 3040530 . PMID 21210983 .  
  22. ^ https://galaxyproject.org/public-galaxy-servers
  23. ^ https://galaxyproject.org/galaxy-team
  24. ^ Lazarus, R .; Taylor, J .; Qiu, W .; Некрутенко, А. (2008). «На пути к коммерциализации трансляционных геномных исследований: особенности дизайна и реализации геномного рабочего места Galaxy» . Саммит по трансляционной биоинформатике . 2008 : 56–60. PMC 3041519 . PMID 21347127 .  
  25. ^ Бланкенберг, Дэниел; Фон Кустер, Грегори; Бувье, Эмиль; Бейкер, Даннон; Афган, Энис; Столер Николай; Тейлор, Джеймс; Некрутенко, Антон (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. DOI : 10,1186 / gb4161 . PMC 4038738 . PMID 25001293 .  
  26. ^ Шейнкман, GM; Джонсон, Дж. Э .; Jagtap, PD; Shortreed, MR; Онсонго, G; Фрей, Б.Л .; Гриффин, Т.Дж.; Смит, Л. М. (22 августа 2014 г.). «Использование Galaxy-P для использования RNA-Seq для открытия новых вариантов белка» . BMC Genomics . 15 (703): 703. DOI : 10.1186 / 1471-2164-15-703 . PMC 4158061 . PMID 25149441 .  
  27. ^ https://galaxyproject.org/mailing-lists
  28. ^ https://galaxyproject.org/
  29. ^ https://galaxyproject.org/gcc/

Внешние ссылки [ править ]

  • Центр сообщества Galaxy
  • Скачайте и установите локально или в облаке
  • Бесплатный публичный сервер Galaxy, размещенный на сервере Galaxy Project
  • Список других публичных серверов Galaxy
  • Статистика проекта