Химический табличный файл (CT File) - это семейство текстовых форматов химических файлов, которые описывают молекулы и химические реакции. Один формат, например, перечисляет каждый атом в молекуле, координаты xyz этого атома и связи между атомами.
Форматы файлов
В семействе есть несколько форматов файлов.
Форматы были созданы компанией MDL Information Systems (MDL) , которая была приобретена Symyx Technologies, затем слилась с Accelrys Corp. и теперь называется BIOVIA, дочерней компанией Dassault Systemes из Dassault Group . [1]
CT File - это открытый формат , BIOVIA публикует его спецификацию. [2] BIOVIA требует, чтобы пользователи регистрировались для загрузки спецификаций формата CTFile. [3]
Molfile
Расширение имени файла | .mol |
---|---|
Тип интернет-СМИ | химический / x-mdl-molfile |
Тип формата | формат химического файла |
MDL Molfile это формат файл для хранения информации о атомах, связях, связи и координате молекулы.
Molfile состоит из некоторой информации заголовка, таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.
Молфайл достаточно распространен, поэтому большинство, если не все, программные системы / приложения для химинформатики могут читать формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica .
Текущая де-факто стандартная версия - это molfile V2000, хотя в последнее время формат V3000 получил достаточно широкое распространение, чтобы создать потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.
Molfiles также используются в некоторых играх для PlayStation 3, особенно в серии LittleBigPlanet для моделей. Эти милфилы совершенно разные, и их трудно преобразовать.
L-аланин | Строка заголовка (может быть пустой, но строка должна существовать) | Блок заголовка (3 строки) |
---|---|---|
ABCDEFGH09071717443D | Строка отметки времени программы / файла (Название исходной программы и отметка времени файла) | |
Экспортировано | Строка комментария (может быть пустой, но строка должна существовать) | |
6 5 0 0 1 0 3 В2000 | Линия подсчета | Таблица подключений |
-0,6622 0,5342 0,0000 С 0 0 2 0 0 0 0,6622 -0,3000 0,0000 С 0 0 0 0 0 0-0,7207 2,0817 0,0000 С 1 0 0 0 0 0-1,8622 -0,3695 0,0000 с.ш.0 3 0 0 0 0 0,6220 -1,8037 0,0000 О 0 0 0 0 0 0 1,9464 0,4244 0,0000 О 0 5 0 0 0 0 | Блок атома (1 строка для каждого атома): x, y, z (в ангстремах ), элемент и т. Д. | |
1 2 1 0 0 01 3 1 1 0 01 4 1 0 0 02 5 2 0 0 02 6 1 0 0 0 | Блок облигаций (1 строка для каждой связи): 1-й атом, 2-й атом, тип и т. Д. | |
M CHG 2 4 1 6 -1M ISO 1 3 13 | Блок свойств | |
M КОНЕЦ | Конец строки (ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед M END) | КОНЕЦ |
Спецификация блока строки подсчета
Значение | 6 | 6 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Описание | количество атомов | количество облигаций | номер списка атомов | Хиральный флаг, 1 = хиральный; 0 = не хиральный | количество записей в стексте | количество строк дополнительные свойства | моль версия |
Тип | [Generic] | [Generic] | [Запрос] | [Generic] | [ISIS / Desktop] | [Generic] |
Спецификация блока облигаций
Блок облигаций состоит из строк облигаций, по одной строке на облигацию, в следующем формате:
111222 ttt sss xxx rrr ccc
где значения описаны в следующей таблице:
Поле | Имея в виду | Значения |
---|---|---|
111 | номер первого атома | |
222 | номер второго атома | |
ттт | тип облигации | 1 = одинарный, 2 = двойной, 3 = тройной, 4 = ароматический, 5 = одинарный или двойной, 6 = одинарный или ароматический, 7 = двойной или ароматический, 8 = любой |
sss | облигация стерео | Для одинарных облигаций: 0 = не стерео; 1 = вверх; 4 = либо, 6 = вниз Для двойных связей: 0 = использовать x-, y-, z-координаты из атомного блока для определения цис или транс; 3 = цис- или транс (либо) двойная связь |
ххх | не используется | |
ррр | топология облигаций | 0 = Либо, 1 = Кольцо, 2 = Цепь |
ccc | статус центра реагирования | 0 = немаркировано, 1 = центр, -1 = не центр, Дополнительно: 2 = без изменений, 4 = сделка / разорвана, 8 = изменение порядка облигации 12 = 4 + 8 (как сделано / сломано, так и изменено); 5 = (4 + 1), 9 = (8 + 1) и 13 = (12 + 1) также возможны |
Расширенная таблица подключений (V3000)
Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует отдельное molfile-приложение, которое содержит тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфил.
Обратите внимание, что «без структуры» помечается меткой «V3000» вместо метки версии «V2000». Помимо версии, в шапке есть еще два изменения:
- Количество строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все текущие считыватели проигнорируют счет и остановятся на M END.)
- «Размерный код» поддерживается более четко. Таким образом, «3D» на самом деле означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены ненулевые Z-координаты.
В отличие от molfile V2000, расширенный molfile V3000 Rgroup имеет тот же формат заголовка, что и molfile, не относящийся к Rgroup.
L-аланин | Описание | Блок заголовка |
---|---|---|
GSMACCS-II07189510252D 1 0,00366 0,00000 0 | Заголовок с отметкой времени | |
Рисунок 1, J. Chem. Инф. Comput. Sci., Том 32, № 3., 1992 | Строка комментария | |
0 0 0 0 0 999 V3000 | Линия совместимости с V2000 | |
M V30 НАЧАТЬ CTAB | Таблица подключений | |
M V30 СЧЕТА 6 5 0 0 1 | Линия подсчета | |
M V30 НАЧАТЬ АТОМM V30 1 C -0,6622 0,5342 0 0 CFG = 2M V30 2 C 0,6622 -0,3 0 0M V30 3 C -0,7207 2,0817 0 0 МАССА = 13M V30 4 N -1,8622 -0,3695 0 0 CHG = 1M V30 5 O 0,622 -1,8037 0 0M V30 6 O 1.9464 0.4244 0 0 CHG = -1M V30 КОНЕЦ АТОМ | Блок атома | |
M V30 НАЧАЛО ОБЛИГАЦИИM V30 1 1 1 2M V30 2 1 1 3 CFG = 1M V30 3 1 1 4M V30 4 2 2 5M V30 5 1 2 6M V30 КОНЕЧНАЯ СВЯЗЬ | Блок облигаций | |
M V30 END CTABM КОНЕЦ |
Линия подсчета
Строка подсчета обязательна, и она должна быть первой. Он определяет количество атомов, связей, трехмерных объектов и S-групп. Он также указывает, установлен ли флаг CHIRAL. По желанию, в строке счетчиков можно указывать молрегно. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счета:
M V30 СЧЕТА | на | nb | нсг | n3d | хиральный | [REGNO = regno] |
M V30 СЧЕТА | 6 | 5 | 0 | 0 | 1 | |
SDF
Расширение имени файла | .sd , .sdf |
---|---|
Тип интернет-СМИ | химический / x-mdl-sdfile |
Тип формата | формат химического файла |
SDF - один из семейств файловых форматов химических данных, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает файл структурных данных, а файлы SDF фактически обертывают формат molfile ( MDL Molfile ). Составные части разделяются строками, состоящими из четырех знаков доллара ($$$$). Особенностью формата SDF является его способность включать связанные данные.
Связанные элементы данных обозначаются следующим образом:
> XCA3464366 > 5,825 > <Поставщик> Sigma> <Молекулярный вес> 499,611
Также поддерживаются многострочные элементы данных. Спецификация формата MDL SDF требует, чтобы был вставлен символ жесткого возврата каретки, если одна строка любого текстового поля превышает 200 символов. На практике это требование часто нарушается, так как многие строки SMILES и InChI превышают эту длину.
Другие форматы семьи
Существуют и другие, менее распространенные форматы семейства:
- RXNFile - для представления одной химической реакции;
- RDFile - для представления списка записей со связанными данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
- RGFile - для представления структур Маркуша (не рекомендуется, Molfile V3000 может представлять структуры Маркуша);
- XDFile - для представления химической информации в формате XML .
Смотрите также
Рекомендации
- ^ Dalby, A .; Nourse, JG; Hounshell, WD; Гушурст, АКИ; Гриер, DL; Леланд, BA; Лауфер, Дж. (1992). «Описание нескольких форматов файлов химической структуры, используемых компьютерными программами, разработанными в Molecular Design Limited». Журнал химической информации и моделирования . 32 (3): 244. DOI : 10.1021 / ci00007a012 .
- ^ «Форматы файлов CT» (PDF) . Биовия. Август 2020. Архивировано (PDF) из оригинала 2021-02-19 . Проверено 19 февраля 20 .
- ^ «Регистрационная форма» . Биовия. Архивировано 01 октября 2020 года . Проверено 19 февраля 20 .
Внешние ссылки
- Бесплатная программа SDF Toolkit для обработки файлов SD (SDF).
- NCI / CADD Chemical Identifier Resolver генерирует файлы SD (SDF) из химических названий, номеров реестра CAS, SMILES, InChI, InChIKey, ....
- Бесплатное программное обеспечение KNIME для управления данными и сбора данных, также может читать и записывать файлы SD (SDF).
- Служба сравнительной токсикологической панели, предоставляемая Агентством по охране окружающей среды (EPA), которая генерирует файлы SD (SDF) из химических названий, номеров реестра CAS, SMILES, InChI, InChIKey, ...