Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В этой статье обсуждаются некоторые распространенные форматы молекулярных файлов , включая использование и преобразование между ними.

Отличительные форматы [ править ]

Химическая информация обычно предоставляется в виде файлов или потоков, и было создано множество форматов с различной степенью документации. Формат указывается тремя способами (см. Химический раздел MIME).

  • расширение файла (обычно 3 буквы). Это широко используется, но хрупко, поскольку такие общие суффиксы, как «.mol» и «.dat», используются во многих системах, включая нехимические.
  • файлы с самоописанием, в которых информация о формате включена в файл. Примеры - CIF и CML.
  • химический / MIME-тип, добавленный химически осведомленным сервером.

Язык химической разметки [ править ]

Язык химической разметки (CML) - это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях «Инструменты для работы с языком химической разметки» и «XML для химии и биологических наук» CML обсуждается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.

Формат банка данных белков [ править ]

Protein банк данных Формат обычно используется для белков , но он может быть использован для других типов молекул , а также. Первоначально он был разработан и остается форматом с фиксированной шириной столбца и, таким образом, официально имеет встроенное максимальное количество атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Однако многие инструменты могут читать файлы, превышающие эти ограничения. Например, рибосома E. coli 70S в 2009 г. была представлена ​​в виде 4 файлов PDB: 3I1M , 3I1N , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C .

Некоторые файлы PDB содержат необязательный раздел, описывающий связь атома, а также положение. Поскольку эти файлы иногда используются для описания макромолекулярных сборок или молекул, представленных в явном растворителе , они могут становиться очень большими и часто сжимаются. Некоторые инструменты, такие как Jmol и KiNG, [1] могут читать файлы PDB в формате gzip. WwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 г. произошло довольно серьезное изменение в спецификации формата PDB (до версии 3.0) и устранение многих проблем с файлами в существующей базе данных. [2] Типичное расширение файла для файла PDB - .pdb , хотя в некоторых старых файлах используется .ent или .brk.. Некоторые инструменты молекулярного моделирования записывают нестандартные файлы в стиле PDB, которые адаптируют базовый формат к своим потребностям.

Формат GROMACS [ править ]

Семейство файловых форматов GROMACS было создано для использования с программным пакетом молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения результатов моделирования молекулярной динамики , поэтому он обеспечивает дополнительную числовую точность и, при необходимости, сохраняет информацию о скорости частиц, а также о положении в данной точке траектории моделирования. Он не позволяет хранить информацию о подключении, которая в GROMACS получается из отдельных файлов молекулы и системной топологии. Типичное расширение файла GROMACS - .gro .

Формат CHARMM [ править ]

CHARMM динамика пакета молекулярного [3] может читать и писать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF ( файл структуры белка ) в значительной степени уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбца, напоминает формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и требуется перед началом моделирования. Обычно используются файлы с расширениями .crd и .psf соответственно.

Формат GSD [ править ]

Формат файлов общих данных моделирования (GSD), созданный для эффективного чтения / записи общих имитаций частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue . Пакет также содержит модуль python, который читает и записывает файлы gsd схемы hoomd с простым в использовании синтаксисом. [1]

Формат файла Ghemical [ править ]

Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию он использует формат GPR. Этот файл состоит из нескольких частей, разделенных тегом (! Header,! Info,! Atoms,! Bonds,! Coord,! PartialCharges и! End).

Предлагаемый тип MIME для этого формата - application / x-ghemical .

SYBYL Line Notation [ править ]

SYBYL Line Notation (SLN) - это обозначение химической линии . Основанный на SMILES, он включает полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет специфицировать запросы структуры Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.

Примеры SLN

УЛЫБКИ [ править ]

S implified М olecular Я Nput л ине Е nУзнать о S pecification (УСМЕДЕТСЯ) является линией обозначения для молекул. Строки SMILES включают возможность подключения, но не включают 2D или 3D координаты.

Атомы водорода не представлены. Другие атомы представлены символами их элементов B, C, N, O, F, P, S, Cl, Br и I. Символ «=» представляет двойные связи, а «#» представляет тройные связи. Ветвление обозначено (). Кольца обозначаются парами цифр.

Некоторые примеры

XYZ [ править ]

Формат файла XYZ - это простой формат, который обычно дает количество атомов в первой строке, комментарий ко второй, за которым следует количество строк с атомными символами (или атомными числами) и декартовыми координатами.

Номер в леях [ править ]

Номер MDL содержит уникальный идентификационный номер для каждой реакции и вариации. Формат - RXXXnnnnnnnn. R указывает на реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.

Другие распространенные форматы [ править ]

Одним из наиболее широко используемых промышленных стандартов являются форматы файлов химических таблиц , такие как файлы формата данных структуры (SDF). Это текстовые файлы, которые соответствуют строгому формату для представления нескольких записей химической структуры и связанных полей данных. Формат был первоначально разработан и опубликован Molecular Design Limited (MDL). MOL - это еще один формат файлов от MDL. Это описано в главе 4 документа CTfile Formats . [4]

PubChem также имеет форматы файлов XML и ASN1, которые представляют собой параметры экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (чаще всего ASN1 - это двоичный формат).

В таблице ниже перечислено большое количество других форматов.

Преобразование между форматами [ править ]

OpenBabel и JOELib - это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.

babel -i input_format input_file -o output_format output_file

Например, чтобы преобразовать файл epinephrine.sdf из SDF в CML, используйте команду

babel -i sdf epinephrine.sdf -o cml epinephrine.cml

В результате получается файл epinephrine.cml.

Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, могут читать файлы в нескольких форматах и ​​записывать их в других форматах. В эту категорию входят инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol [5] [ необходима ссылка ] и Discovery Studio .

Химический проект MIME [ править ]

«Химический MIME» - это фактический подход к добавлению типов MIME к химическим потокам.

Этот проект стартовал в январе 1994 г. и впервые был объявлен на семинаре по химии на Первой международной конференции WWW, состоявшейся в ЦЕРН в мае 1994 г. ... Первая версия проекта в Интернете была опубликована в мае – октябре 1994 г., а вторая пересмотренная версия в апреле – сентябре 1995 г. Документ, представленный CPEP (Комитет по печатным и электронным публикациям) на заседании IUPAC в августе 1996 г., доступен для обсуждения. [6]

В 1998 году работа была официально опубликована в JCIM . [7]

Поддержка [ править ]

Для Linux / Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [8] [9] Затем программы могут зарегистрироваться в качестве средства просмотра, редактора или процессора для этих форматов, чтобы была доступна полная поддержка химических типов MIME.

Источники химических данных [ править ]

Вот краткий список источников свободно доступных молекулярных данных. В Интернете гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.

  1. База данных PubChem Национального института здравоохранения США является огромным источником химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
  2. Всемирный банк данных по белкам ( wwPDB ) [10] является отличным источником данных о координатах молекул белков и нуклеиновых кислот. Данные трехмерны и представлены в формате Protein Data Bank (PDB).
  3. eMolecules - коммерческая база данных молекулярных данных. Данные включают двухмерную структурную схему и строку улыбок для каждого соединения. eMolecules поддерживает быстрый поиск субструктур на основе частей молекулярной структуры.
  4. ChemExper - коммерческая база данных молекулярных данных. Результаты поиска включают двумерную структурную схему и файл кротов для многих соединений.
  5. Библиотека трехмерных молекулярных структур Нью-Йоркского университета .
  6. Агентство по охране окружающей среды США «S Распределенная структура-Searchable Токсичность (DSSTox) База данных Сеть является проектом Программы вычислительной токсикологии EPA. В базе данных представлены молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.

См. Также [ править ]

  • Формат файла
  • OpenBabel , JOELib , OELib
  • Комплект для разработки химии
  • Язык химической разметки
  • Программное обеспечение для молекулярного моделирования
  • NCI / CADD преобразователь химических идентификаторов

Ссылки [ править ]

  1. ^ Чен, В.Б .; и другие. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации» . Белковая наука . 18 (11): 2403–2409. DOI : 10.1002 / pro.250 . PMC  2788294 . PMID  19768809 .
  2. ^ Хенрик, К .; и другие. (2008). «Восстановление архива банка данных по белкам» . Исследования нуклеиновых кислот . 36 (выпуск базы данных): D426 – D433. DOI : 10.1093 / NAR / gkm937 . PMC 2238854 . PMID 18073189 .  
  3. ^ Брукс, BM; и другие. (1983). «CHARMM: программа для расчета энергии макромолекул, минимизации и динамики». J. Comput. Chem . 4 : 187–217. DOI : 10.1002 / jcc.540040211 .
  4. ^ Информационные системы MDL 2005
  5. ^ Домашняя страница Mol2mol
  6. The Chemical MIME Home Page (по состоянию на 24 января 2013 г.)
  7. ^ Rzepa, HS; Murray-Rust, P .; Уитакер, Б.Дж. (1998). «Применение химических многоцелевых расширений электронной почты в Интернете (химическое MIME) Интернет-стандартов для электронной почты и обмена информацией во всемирной паутине». Журнал химической информации и моделирования . 38 (6): 976. DOI : 10.1021 / ci9803233 .
  8. ^ http://packages.debian.org/search?keywords=chemical-mime
  9. ^ http://downloads.sourceforge.net/chemical-mime/
  10. ^ Берман, HM; и другие. (2003). «Представляем всемирный банк данных о белках». Структурная биология природы . 10 (12): 980. DOI : 10.1038 / nsb1203-980 . PMID 14634627 . 

Внешние ссылки [ править ]

  • Информационные системы MDL (июнь 2005 г.), CTFile Formats (PDF) , Сан-Леандро, Калифорния, США: Информационные системы MDL , заархивировано из оригинала (PDF) 30 июня 2007 г.
  • «Разрешить структурный идентификатор как SDF, CML, MRV, PDB» . NCI . NIH : CADD Group Chemoinformatics Tools and User Services (CACTUS). Июль 2009 г.