Масс-спектрометрия - это научный метод измерения отношения массы к заряду ионов. Его часто сочетают с хроматографическими методами, такими как газовая или жидкостная хроматография, и он нашел широкое применение в областях аналитической химии и биохимии, где его можно использовать для идентификации и характеристики малых молекул и белков ( протеомика). Большой объем данных, полученных в типичном масс-спектрометрическом эксперименте, требует использования компьютеров для хранения и обработки данных. На протяжении многих лет различные производители масс-спектрометров разработали различные собственные форматы данных для обработки таких данных, что затрудняет непосредственное управление своими данными академическими учеными. Для устранения этого ограничения, несколько открытых , XML -Ы форматов данных недавно были разработаны Транс-протеомных трубопроводом в Институте системной биологии для облегчения манипулирования данных и инноваций в государственном секторе. [1] Эти форматы данных описаны здесь.
Открытые форматы
JCAMP-DX
Этот формат был одной из первых попыток предоставить стандартизированный формат файла для обмена данными в масс-спектрометрии. JCAMP -DX изначально был разработан для инфракрасной спектрометрии. JCAMP-DX - это формат на основе ASCII , поэтому он не очень компактен, хотя и включает стандарты сжатия файлов. JCAMP был официально выпущен в 1988 году. [2] Совместно с Американским обществом масс-спектрометрии был разработан формат JCAMP-DX для масс-спектрометрии с целью сохранения устаревших данных. [3]
ANDI-MS или netCDF
Формат обмена аналитическими данными для масс-спектрометрии - это формат обмена данными. Многие пакеты программного обеспечения для масс-спектрометрии могут читать или записывать файлы ANDI. ANDI указан в стандарте ASTM E1947. [4] ANDI основан на netCDF - библиотеке программных инструментов для записи и чтения файлов данных. Изначально ANDI был разработан для данных хроматографии-МС и поэтому не использовался во время золотой лихорадки протеомики, когда были разработаны новые форматы на основе XML . [5]
mzData
mzData была первой попыткой Proteomics Standards Initiative (PSI) от Human Proteome Organization (HUPO) создать стандартизированный формат для данных масс-спектрометрии. [6] Этот формат устарел и заменен на mzML. [7]
mzXML
mzXML - это общий формат файлов на основе XML (расширяемого языка разметки) для протеомных масс-спектрометрических данных. [8] [9] Этот формат был разработан Сиэтлским протеомным центром / Институтом системной биологии, когда HUPO-PSI пытался определить стандартизированный формат mzData, и до сих пор используется в сообществе протеомиков.
mzML
Поскольку два формата (mzData и mzXML) для представления одной и той же информации являются нежелательным состоянием, HUPO-PSI, SPC / ISB и поставщики инструментов предприняли совместные усилия для создания единого стандарта, заимствуя лучшие аспекты как mzData, так и mzXML, и предназначен для их замены. Первоначально он назывался dataXML, но официально был объявлен как mzML. [10] Первая спецификация была опубликована в июне 2008 года. [11] Этот формат был официально выпущен на собрании Американского общества масс-спектрометрии в 2008 году и с тех пор является относительно стабильным с очень небольшим количеством обновлений. 1 июня 2009 г. была выпущена версия mzML 1.1.0. По состоянию на 2013 год дальнейших изменений не планируется.
mz5
Формат mz5 решает проблемы производительности предыдущих форматов на основе XML. Он использует онтологию mzML, но сохраняет данные с помощью бэкэнда HDF5 для уменьшения требований к пространству для хранения и повышения скорости чтения / записи. [12]
mzMLb
mzMLb - это еще один вариант использования бэкэнда HDF5 для эффективного сохранения необработанных данных. Однако он сохраняет структуру данных mzML XML и соответствует существующему стандарту. [13]
Ириска
Toffee - это открытый формат файлов без потерь для независимой от данных масс-спектрометрии. Он использует HDF5 и нацелен на достижение размеров файлов, аналогичных размерам проприетарных и закрытых форматов поставщиков. [14]
imzML
Стандарт imzML был предложен для обмена данными масс-спектрометрической визуализации в стандартизированном XML-файле на основе онтологии mzML. Он разделяет экспериментальные данные на XML и спектральные данные в двоичный файл. Оба файла связаны универсальным уникальным идентификатором . [15]
Собственные форматы
Ниже представлена таблица с различными расширениями форматов файлов.
Компания Расширение Тип файла Agilent
Bruker.D (папка) Формат данных Agilent MassHunter, Agilent ChemStation или Bruker BAF / YEP / TDF Agilent / Bruker .АГА формат данных прибора Bruker .BAF формат данных прибора Bruker .FID формат данных прибора Bruker .TDF формат данных инструмента timsTOF ABI / Sciex .WIFF формат данных прибора ABI / Sciex .t2d Формат файлов 4700 и 4800 Воды .PKL Формат списка пиков MassLynx Термо
ПеркинЭлмер.СЫРОЙ* Термо Xcalibur
PerkinElmer TurboMassМикромасса ** / Воды .RAW * (папка) Waters MassLynx Chromtech Finnigan
***
VG.DAT Формат файла Finnigan ITDS; Формат данных прибора
MAT95 Формат данных MassLabФинниган *** .РС Формат данных прибора ITS40 Шимадзу .QGD Формат GCMSSolution Шимадзу .qgd формат данных прибора Шимадзу .lcd Формат данных инструмента QQQ / QTOF Шимадзу .spc формат данных библиотеки Bruker / Varian .СМС формат данных прибора Bruker / Varian .XMS формат данных прибора ИОН-ТОФ .itm необработанные данные измерений ИОН-ТОФ .ita данные анализа Физическая электроника / ULVAC-PHI .сырой* необработанные данные измерений Физическая электроника / ULVAC-PHI .tdc данные спектра
(*) Обратите внимание, что форматы RAW каждого производителя не взаимозаменяемы; программное обеспечение из одного не может обрабатывать файлы RAW из другого.
(**) Micromass была приобретена Waters в 1997 году
(***) Finnigan является подразделением Thermo.
Программное обеспечение
Зрителей
Существует несколько программ просмотра для mzXML, mzML и mzData: MZmine, [16] PEAKS, [17] Insilicos , [18] MS-Spectre, [19] TOPPView (mzXML, mzML и mzData), [20] Spectra Viewer, [21] ] SeeMS, [22] msInspect, [23] jmzML [24] и Mascot Distiller. [25]
Есть вьювер для изображений ITA. [26] Образы ITA и ITM можно анализировать с помощью библиотеки python pySPM. [27]
Конвертеры
Известные конвертеры для mzData в mzXML:
- Гермес: Конвертер Java "mzData, mzXML, mzML" для всех направлений: общедоступный, работает с графическим пользовательским интерфейсом, Институт молекулярной системной биологии, ETH Zurich [28] [29]
- FileConverter: инструмент командной строки, конвертирующий в / из различных форматов масс-спектрометрии, [30] часть TOPP [31]
Известные конвертеры для mzXML:
- Институт системной биологии ведет список преобразователей [32]
Известные конвертеры для mzML:
- msConvert: [33] [34] Инструмент командной строки, конвертирующий в / из различных форматов масс-спектрометрии. Графический интерфейс также доступен для пользователей Windows.
- ReAdW: [35] Конвертер командной строки Института системной биологии для файлов Thermo RAW, часть TransProteomicPipeline. [36] Последнее обновление этого инструмента было сделано в сентябре 2009 года. Теперь команда разработчиков TPP перенаправляет пользователей на использование программного обеспечения msConvert (см. Выше).
- FileConverter: инструмент командной строки, конвертирующий в / из различных форматов масс-спектрометрии, [30] часть TOPP [31]
Конвертеры для проприетарных форматов:
- msConvert: [33] [34] Инструмент командной строки, конвертирующий в / из различных форматов масс-спектрометрии, включая несколько проприетарных форматов. Графический интерфейс также доступен для пользователей Windows.
- CompassXport, бесплатный инструмент Bruker, генерирующий файлы mzXML (а теперь и mzData) [ необходима ссылка ] для многих из их собственных форматов файлов (.baf).
- MASSTransit, программное обеспечение для переключения данных между частными форматами, разработанное Palisade Corporation и распространяемое компаниями Scientific Instrument Services, Inc [37] и PerkinElmer [38]
- Aston, [39] встроенная поддержка нескольких форматов файлов Agilent Chemstation, Agilent Masshunter и Thermo Isodat.
- Unfinnigan, [40] встроенная поддержка форматов файлов Finnigan (* .RAW)
- OpenChrom , программное обеспечение с открытым исходным кодом с поддержкой преобразования различных собственных форматов файлов, включая собственный открытый формат .ocb для хранения хроматограмм, пиков и результатов идентификации [41]
В настоящее время доступны следующие конвертеры:
- MassWolf, для формата Micromass MassLynx .Raw
- mzStar, для формата SCIEX / ABI SCIEX / ABI Analyst
- wiff2dta [42] для формата SCIEX / ABI SCIEX / ABI Analyst в mzXML, DTA, MGF и PMF
Смотрите также
- Программное обеспечение для масс-спектрометрии
Рекомендации
- ^ Deutsch EW (декабрь 2012 г.). «Форматы файлов, обычно используемые в протеомике масс-спектрометрии» . Молекулярная и клеточная протеомика . 11 (12): 1612–21. DOI : 10.1074 / mcp.R112.019695 . PMID 22956731 .
- ↑ RS McDonald и PA Wilks; « JCAMP-DX: стандартная форма для обмена инфракрасными спектрами в машиночитаемой форме »; Прикладная спектроскопия , Vol. 42, № 1, январь 1988 г., стр. 151–162.
- ^ Лампен П., Хиллиг Х., Дэвис А.Н., Линшайд М. (декабрь 1994 г.). «JCAMP-DX для масс-спектрометрии» . Прикладная спектроскопия . 48 (12): 1545–52.
- ^ ASTM E1947 - 98 (2009) Стандартная спецификация для протокола обмена аналитическими данными для хроматографических данных
- ^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L, et al. (Январь 2014). «Управляемые словари и онтологии в протеомике: обзор, принципы и практика» . Biochimica et Biophysica Acta . 1844 (1 балл A): 98–107. DOI : 10.1016 / j.bbapap.2013.02.017 . PMID 23429179 .
- ^ Орчард С., Монтечи-Палацци Л., Дойч Э. У., Бинц П. А., Джонс А. Р., Патон Н. и др. (Октябрь 2007 г.). «Пять лет прогресса в стандартизации данных по протеомике 4-го ежегодного весеннего семинара HUPO-Proteomics Standards Initiative 23-25 апреля 2007 г., Ecole Nationale Supérieure (ENS), Лион, Франция». Протеомика . 7 (19): 3436–40. DOI : 10.1002 / pmic.200700658 . PMID 17907277 . S2CID 22837325 .
- ^ "mzData" . HUPO-PSI. Архивировано из оригинала 7 июля 2018 года . Проверено 26 апреля 2021 года .
- ^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B и др. (Ноябрь 2004 г.). «Общее открытое представление данных масс-спектрометрии и его применение в исследованиях протеомики». Природа Биотехнологии . 22 (11): 1459–66. DOI : 10.1038 / nbt1031 . PMID 15529173 . S2CID 25734712 .
- ^ Лин С.М., Чжу Л., Винтер А.К., Сасиновски М., Киббе В.А. (декабрь 2005 г.). «Для чего нужен mzXML?». Экспертный обзор протеомики . 2 (6): 839–45. DOI : 10.1586 / 14789450.2.6.839 . PMID 16307524 . S2CID 24914725 .
- ^ «мзМЛ» . Инициатива стандартов HUPO-Proteomics . Проверено 19 апреля 2013 года .
- ^ Deutsch E (июль 2008 г.). «mzML: единый унифицирующий формат данных для вывода масс-спектрометра» . Протеомика . 8 (14): 2776–7. DOI : 10.1002 / pmic.200890049 . PMID 18655045 . S2CID 28297899 .
- ^ Вильгельм М., Кирхнер М., Стин Дж.А., Стин Х. (январь 2012 г.). «mz5: экономичное и эффективное хранение массивов данных масс-спектрометрии» . Молекулярная и клеточная протеомика . 11 (1): O111.011379. DOI : 10.1074 / mcp.O111.011379 . PMC 3270111 . PMID 21960719 .
- ^ Бхамбер Р.С., Янкевич А., Дойч Э. У., Джонс А. Р., Доузи А. В. (январь 2021 г.). «mzMLb: перспективный формат необработанных данных масс-спектрометрии, основанный на совместимом со стандартами mzML и оптимизированный для требований к скорости и хранению» . Журнал протеомных исследований . 20 (1): 172–183. DOI : 10.1021 / acs.jproteome.0c00192 . PMC 7871438 . PMID 32864978 .
- ^ Талли Б (июнь 2020 г.). «Ириска - высокоэффективный формат файлов без потерь для DIA-MS» . Научные отчеты . 10 (1): 8939. DOI : 10.1038 / s41598-020-65015-у . PMID 32488104 .
- ^ Шрамм Т., Хестер З., Клинкерт И., Оба Дж. П., Херен Р. М., Брунель А. и др. (Август 2012 г.). «imzML - общий формат данных для гибкого обмена и обработки данных изображений масс-спектрометрии». Журнал протеомики . 75 (16): 5106–5110. DOI : 10.1016 / j.jprot.2012.07.026 . PMID 22842151 .
- ^ "Сайт MZmine" .
- ^ "BSI: Сайт ПИКС" . Bioinfor.com . Проверено 29 ноября 2011 года .
- ^ "Сайт Insilicos" . Архивировано из оригинала 20 декабря 2014 года . Проверено 28 марта 2020 .
- ^ "Сайт MS-Spectre" . Ms-spectre.sourceforge.net . Проверено 29 ноября 2011 года .
- ^ «Сайт OpenMS и TOPP» . Open-ms.sourceforge.net . Проверено 29 ноября 2011 года .
- ^ «Программа просмотра с открытым исходным кодом, разработанная в рамках академических проектов» . Staff.icar.cnr.it . Проверено 29 ноября 2011 года .
- ^ «Программа просмотра с открытым исходным кодом, разработанная Мэттом Чемберсом из Vanderbilt» . Proteowizard.sourceforge.net . Проверено 29 ноября 2011 года .
- ^ «Программа просмотра с открытым исходным кодом, разработанная онкологическим центром Фреда Хатчинсона» . Proteomics.fhcrc.org . Проверено 29 ноября 2011 года .
- ^ "jmzML" . Проверено 29 ноября 2011 года .
- ^ Matrix Science Limited. «Коммерческое программное обеспечение с бесплатным режимом просмотра для mzXML и многих проприетарных форматов» . Matrixscience.com . Проверено 29 ноября 2011 года .
- ^ «ITAviewer онлайн» .
"Источник ITAviewer" . - ^ "сайт pySPM" .
- ↑ Hermes, архивная копия от 3 марта 2016 года в Wayback Machine.
- ^ "Сайт Гермеса" . Icecoffee.ch . Проверено 29 ноября 2011 года .
- ^ а б «Конвертер файлов» . Open-ms.sourceforge.net . Проверено 29 ноября 2011 года .
- ^ a b TOPP Архивировано 15 апреля 2008 г. в Wayback Machine.
- ^ «mzXML» . Проверено 30 июня 2008 года .
- ^ а б "msconvert" . ProteoWizard . Проверено 20 апреля 2013 года .
- ^ а б «ProteoWizard» . Проверено 20 апреля 2013 года .
- ^ "ReAdW" . Tools.proteomecenter.org . Проверено 29 ноября 2011 года .
- ^ «ТрансПротеомикПайплайн» . Tools.proteomecenter.org. 25 мая 2011 . Проверено 29 ноября 2011 года .
- ^ MASSTransit по палисаду архивного 9 мая 2008 года в Wayback Machine
- ^ «Газовая хроматография (ГХ)» . PerkinElmer . Проверено 29 ноября 2011 года .
- ^ aston - Программное обеспечение для хроматографии и масс-спектрометрии с открытым исходным кодом - Google Project Hosting
- ^ Unfinnigan - Безболезненное извлечение масс-спектров из "сырых" файлов Thermo - Google Project Hosting
- ^ Домбровский Ł (7 августа 2015 г.). «Обзор бесплатного программного обеспечения для обработки данных для хроматографии» . Средиземноморский химический журнал . 4 (4): 193–200. DOI : 10,13171 / mjc.4.4.2015.15.09.16.35 / Домбровский .
- ^ wiff2dta в sourceforge