Pipeline Pilot - это настольная программа для обработки и анализа данных, продаваемая Dassault Systèmes. Первоначально используемые в естественных науках, базовые возможности ETL ( извлечение, преобразование, загрузка ) и аналитики продукта были расширены. Теперь продукт используется для анализа данных , ETL, отчетности, прогнозирования и аналитики в ряде секторов. Основная особенность продукта - возможность проектировать рабочие процессы данных с помощью графического пользовательского интерфейса. Программа является примером визуального программирования и программирования потока данных . Он используется в различных настройках, таких как хеминформатика и QSAR, [1] [2] [3] секвенирование следующего поколения, [4] анализ изображений,[5] [6] и текстовая аналитика. [7]
Разработчики) | Accelrys |
---|---|
Первый выпуск | 1999 г. |
Стабильный выпуск | 18.1 / мая 2018 |
Написано в | C ++ |
Операционная система | Windows и Linux |
Тип | Визуальный и поток данных языка программирования |
Лицензия | Проприетарный |
Веб-сайт | acclrys |
История
Продукт создан SciTegic . Впоследствии BIOVIA приобрела SciTegic и Pipeline Pilot в 2004 году. Сама BIOVIA была приобретена Dassault Systèmes в 2014 году. Продукт расширился с первоначального акцента на химии, включив в него общие возможности извлечения, преобразования и загрузки (ETL). Помимо базового продукта, Dassault добавила аналитические коллекции и коллекции обработки данных для создания отчетов, визуализации данных и ряда научных и инженерных секторов. В настоящее время продукт используется для ETL, аналитики и машинного обучения в химической, энергетической, потребительской, аэрокосмической, автомобильной и электронной промышленности.
Обзор
Pipeline Pilot является частью класса программных продуктов, которые предоставляют пользовательские интерфейсы для управления и анализа данных. Pipeline Pilot и аналогичные продукты позволяют пользователям с ограниченными возможностями программирования или без них преобразовывать наборы данных и управлять ими. Обычно это предшествует проведению анализа данных. Как и другие графические продукты ETL, он позволяет пользователям извлекать данные из различных источников, таких как файлы CSV, текстовые файлы и базы данных.
Компоненты, конвейеры, протоколы и записи данных
Графический пользовательский интерфейс , называемый Pipeline Pilot Professional Client позволяет пользователям перетаскивания дискретных данных блоков обработки называемые «компоненты». Компоненты могут загружать, фильтровать, объединять или манипулировать данными. Компоненты также могут выполнять гораздо более сложные операции с данными, такие как построение регрессионных моделей, обучение нейронных сетей или обработка наборов данных в отчеты в формате PDF.
Pipeline Pilot реализует парадигму компонентов . Компоненты представлены в виде узлов в рабочем процессе. В математическом смысле компоненты моделируются как узлы в ориентированном графе : «трубы» (ребра графа) соединяют компоненты и перемещают данные от узла к узлу, где над данными выполняются операции. У пользователей есть выбор: использовать предопределенные компоненты или разрабатывать свои собственные. Чтобы помочь в отраслевых приложениях, таких как секвенирование следующего поколения (см. Методы высокопроизводительного секвенирования (HTS) ), BIOVIA разработала компоненты, которые значительно сокращают время, необходимое пользователям для выполнения стандартных отраслевых задач.
Пользователи могут выбирать из предварительно установленных компонентов или создавать свои собственные компоненты в рабочих процессах, называемых «протоколами». Протоколы - это наборы связанных компонентов. Протоколы можно сохранять, повторно использовать и делиться ими. Пользователи могут комбинировать и сопоставлять компоненты, поставляемые с программным обеспечением от BIOVIA, со своими собственными пользовательскими компонентами. Соединения между двумя компонентами называются «трубами» и визуализируются в программном обеспечении как два компонента, соединенных трубой. Конечные пользователи разрабатывают свои рабочие процессы / протоколы, а затем выполняют их, запуская протокол. Данные передаются слева направо по трубам.
Современный анализ и обработка данных может включать в себя очень большое количество манипуляций и преобразований. Одной из основных особенностей Pipeline Pilot является возможность визуально конденсировать длинную серию манипуляций с данными, в которых задействовано множество компонентов. Рабочий процесс любой длины можно визуально сжать в компонент, который используется в рабочем процессе высокого уровня. Это означает, что протокол можно сохранить и использовать как компонент в другом протоколе. В терминологии, используемой в Pipeline Pilot, протоколы, которые используются в качестве компонентов в других протоколах, называются «подпротоколами». Это позволяет пользователям добавлять уровни сложности к своим рабочим процессам обработки и обработки данных, а затем скрывать эту сложность, чтобы они могли проектировать рабочий процесс на более высоком уровне абстракции.
Коллекции компонентов
Pipeline Pilot содержит ряд надстроек, называемых «коллекциями». Коллекции - это группы специализированных функций, таких как обработка генетической информации или анализ полимеров, предлагаемых конечным пользователям за дополнительную плату за лицензию. В настоящее время существует несколько таких коллекций. [8]
Группа | Домен | Сбор компонентов |
---|---|---|
Специально для науки | Химия | Химия |
ADMET | ||
Хеминформатика | ||
Биология | Экспрессия гена | |
Анализ последовательности | ||
Масс-спектрометрия для протеомики | ||
Секвенирование следующего поколения | ||
Моделирование материалов и симуляция | Студия материалов | |
Свойства полимера (Synthia) | ||
Общий | Отчетность и визуализация | Составление отчетов |
База данных и интеграция приложений | Интеграция | |
Визуализация | Визуализация | |
Анализ и статистика | Моделирование данных | |
Расширенное моделирование данных | ||
R Статистика | ||
Поиск и анализ документов | Химический анализ текста | |
Текстовая аналитика | ||
Лаборатория | Аналитика данных планшетов | |
Аналитическое оборудование |
Учитывая количество различных надстроек, которые сейчас предлагает BIOVIA, варианты использования Pipeline Pilot очень широки, и их трудно кратко описать. Продукт использовался в:
- Профилактическое обслуживание
- Анализ изображений, например определение ингибирующего действия вещества на биологические процессы ( IC50 ) путем вычисления зависимости доза-реакция непосредственно из информации, извлеченной из изображений скринингового анализа с высоким содержанием , связанных с разбавлением в макете планшета и химической информации о тестируемые соединения (визуализация, химия, аналитика данных планшетов)
- Система рекомендаций для научной литературы, основанная на байесовской модели, построенной с использованием отпечатков пальцев и списка чтения пользователя или ранжирования статей.
- Доступ к методам и результатам экспериментов из электронной лабораторной записной книжки или системы управления лабораторной информацией , с последующими отчетами для планирования ресурсов.
PilotScript и пользовательские скрипты
Как и другие решения ETL и аналитики, Pipeline Pilot часто используется при обработке одного или нескольких больших (1 ТБ +) и / или сложных наборов данных. В таких ситуациях конечные пользователи могут захотеть использовать написанные ими сценарии программирования. В начале своей разработки Pipeline Pilot создал упрощенный и урезанный язык сценариев под названием PilotScript, который позволил конечным пользователям легко писать базовые сценарии программирования, которые можно было бы включить в протокол Pipeline Pilot. Позже выпускает расширенную поддержку различных языков программирования, включая Python , .NET , Matlab , Perl , SQL , Java , VBScript и R . [9]
Синтаксис PilotScript основан на PLSQL . Его можно использовать в таких компонентах, как пользовательский манипулятор (PilotScript) или пользовательский фильтр (PilotScript) . В качестве примера можно использовать следующий сценарий для добавления свойства с именем «Hello» к каждой записи, проходящей через настраиваемый компонент сценария в протоколе Pipeline Pilot. Значением свойства является строка «Hello World!».
Привет : = "Привет, мир!" ;
В настоящее время продукт поддерживает ряд API-интерфейсов для различных языков программирования, которые могут выполняться без графического пользовательского интерфейса программы.
Рекомендации
- ^ Хасан, Мойзес; Браун, Роберт Д .; Варма-О'Брайен, Шиха; Роджерс, Дэвид (2007). "Химинформатика анализа и обучения в среде конвейера данных". ХимИнформ . 38 (12). DOI : 10.1002 / chin.200712278 . ISSN 0931-7597 .
- ^ Ху, Е; Лункин, Евгений; Баджорат, Юрген (2009). «Повышение эффективности поиска отпечатков расширенных возможностей подключения с помощью фильтрации функций, ориентированных на действия, и применения функции сходства, зависящей от битовой плотности». ChemMedChem . 4 (4): 540–548. DOI : 10.1002 / cmdc.200800408 . ISSN 1860-7179 . PMID 19263458 .
- ^ Уорр, Венди А. (2012). «Системы научного документооборота: Pipeline Pilot и KNIME» . Журнал компьютерного молекулярного дизайна . 26 (7): 801–804. Bibcode : 2012JCAMD..26..801W . DOI : 10.1007 / s10822-012-9577-7 . ISSN 0920-654X . PMC 3414708 . PMID 22644661 .
- ^ «Accelrys выходит на рынок секвенирования нового поколения с коллекцией NGS для пилотного проекта трубопровода» . Деловой провод. 2011-02-23 . Проверено 15 февраля 2013 года .
- ^ Рабаль, Обдулия; Линк, Вольфганг; Г. Серелде, Беатрис; Бишофф, Джеймс Р .; Оярзабал, Джулен (2010). «Интегрированная одноэтапная система для извлечения, анализа и аннотирования всей необходимой информации из скрининга клеток химических библиотек на основе изображений». Молекулярные биосистемы . 6 (4): 711–20. DOI : 10.1039 / b919830j . ISSN 1742-206X . PMID 20237649 .
- ^ Павли, Росс А .; Mansour, Nuha R .; Холлибертон, Ирэн; Bleicher, Leo S .; Бенн, Алекс Э .; Микич, Ивана; Гуиди, Алессандра; Гилберт, Ян Х .; Хопкинс, Эндрю Л .; Бикл, Квентин Д. (2012). «Скрининг всего организма с высоким содержанием паразитарных болезней на основе изображений без этикеток и байесовской классификации» . PLoS «Забытые тропические болезни» . 6 (7): e1762. DOI : 10.1371 / journal.pntd.0001762 . ISSN 1935-2735 . PMC 3409125 . PMID 22860151 .
- ^ Веллай, С. Г.; Латимер, NE; Пайлард, G (2009). «Интерактивный анализ текста с помощью Pipeline Pilot: библиографический веб-инструмент для PubMed». Цели лекарств от инфекционных заболеваний . 9 (3): 366–74. DOI : 10.2174 / 1871526510909030366 . PMID 19519489 .
- ^ «Коллекции пилотных компонентов трубопровода» . Accelrys. Архивировано из оригинала на 15 января 2013 года . Проверено 26 января 2013 года .
- ^ «Технический паспорт сбора компонентов интеграции пилотных трубопроводов» (PDF) . Accelrys . Проверено 8 февраля 2013 года .