Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

ИЮПАК Международного химический идентификатор ( InChI / ɪ п я / В -chee или / ɪ ŋ к я / ING -kee ) является текстовым идентификатором для химических веществ , предназначенных для обеспечения стандартного способа для кодирования молекулярной информации и облегчения поиск такой информации в базах данных и в сети. Первоначально разработан IUPAC (Международный союз теоретической и прикладной химии) и NIST (Национальный институт стандартов и технологий) с 2000 по 2005 год, формат и алгоритмы не являются собственностью.

Постоянное развитие стандарта с 2010 года поддерживается некоммерческой организацией InChI Trust , членом которой является IUPAC. Текущая версия программного обеспечения - 1.06, выпущенная в декабре 2020 года.

До версии 1.04 программное обеспечение было свободно доступно под лицензией LGPL с открытым исходным кодом [3], но теперь оно использует специальную лицензию под названием IUPAC-InChI Trust License. [4]

Обзор [ править ]

Идентификаторы описывают химические вещества в терминах слоев информации - атомов и их соединений связи, таутомерной информации, изотопной информации, стереохимии и электронной информации заряда. [5] Не все слои должны быть предоставлены; например, слой таутомера может быть опущен, если этот тип информации не имеет отношения к конкретному приложению.

InChI отличаются от широко используемых регистрационных номеров CAS по трем параметрам: во-первых, они свободно используются и не являются собственностью; во-вторых, они могут быть рассчитаны на основе структурной информации и не должны назначаться какой-либо организацией; и в-третьих, большая часть информации в InChI доступна для чтения человеком (с практикой).

Таким образом, InChI можно рассматривать как сродни общей и чрезвычайно формализованной версии имен IUPAC . Они могут выражать больше информации, чем более простая нотация SMILES, и отличаются тем, что каждая структура имеет уникальную строку InChI, что важно для приложений баз данных. Информация о 3-х мерных координатах атомов в InChI не представлена; для этой цели можно использовать такой формат, как PDB .

Алгоритм InChI преобразует входную структурную информацию в уникальный идентификатор InChI в трехэтапном процессе: нормализация (для удаления избыточной информации), канонизация (для создания уникальной цифровой метки для каждого атома) и сериализация (для получения строки символов). .

InChIKey, иногда называемый хешированным InChI, представляет собой сжатое цифровое представление InChI фиксированной длины (27 символов), которое не доступно для понимания человеком. Спецификация InChIKey была выпущена в сентябре 2007 года для облегчения поиска в Интернете химических соединений, поскольку это было проблематично с полноразмерным InChI. [6] В отличие от InChI, InChIKey не уникален: хотя коллизии могут быть рассчитаны как очень редкие, они случаются. [7]

В январе 2009 года была выпущена версия 1.02 программы InChI. Это предоставило средства для генерации так называемого стандартного InChI, который не позволяет пользователю выбирать параметры при работе со стереохимией и таутомерными слоями строки InChI. Стандартный InChIKey является хешированной версией стандартной строки InChI. Стандартный InChI упростит сравнение строк и ключей InChI, сгенерированных разными группами и впоследствии доступных через различные источники, такие как базы данных и веб-ресурсы.

Поколение [ править ]

Чтобы избежать создания различных InChI для таутомерных структур, перед созданием InChI входная химическая структура нормализуется, чтобы уменьшить ее до так называемой основной родительской структуры. Это может включать изменение порядка облигаций, перестановку формальных сборов и, возможно, добавление и удаление протонов. Различные структуры ввода могут дать одинаковый результат; например, уксусная кислота и ацетат будут давать одинаковую исходную структуру ядра, структуру уксусной кислоты. Основная родительская структура может быть отключена, состоящая из более чем одного компонента, и в этом случае подслои в InChI обычно состоят из подслоев для каждого компонента, разделенных точками с запятой (точки для подслоя химической формулы). Это может произойти одним из способов: все атомы металла отключены во время нормализации; так, например,InChI для тетраэтилсвинца будет содержать пять компонентов: один для свинца и четыре для этильных групп.[5]

Первый, основной, слой InChI относится к этой основной родительской структуре, давая его химическую формулу, неводородную связность без порядка связей ( /cподслой) и водородную связь ( /hподслой). /qЧасть зарядового слоя дает свой заряд, а /pЧасть зарядового слоя сообщает, сколько протонов (ионов водорода) необходимо добавить или удалить из него, чтобы восстановить исходную структуру. Если он присутствует, стереохимическая слой, с подслоями /b, /t, /mи /s, дает стереохимическую информацию, а также изотопный слой /i(который может содержать подслои /h, /b, /t, /mи /s) дает изотопную информацию. Это единственные слои, которые могут встречаться в стандартном InChI.[5]

Если пользователь хочет указать точный таутомер, /fможет быть добавлен фиксированный слой водорода , который может содержать различные дополнительные подслои; это невозможно сделать в стандартном InChI, поэтому разные таутомеры будут иметь один и тот же стандартный InChI (например, аланин будет давать один и тот же стандартный InChI, независимо от того, вводится ли он в нейтральной или цвиттерионной форме). Наконец, можно добавить нестандартный повторно связанный /rслой, что эффективно дает новый InChI, генерируемый без разрыва связей с атомами металла. Он может содержать различные подслои, в том числе /f. [5]

Формат и слои [ править ]

Каждый InChI начинается со строки « InChI=», за которой следует номер текущей версии 1. Если InChI является стандартным, за ним следует буква Sдля стандартных InChI , которые представляют собой полностью стандартизованный вариант InChI, сохраняющий тот же уровень внимания к деталям структуры и те же соглашения для восприятия рисования. Остальная информация структурирована как последовательность уровней и подуровней, каждый из которых предоставляет один определенный тип информации. Слои и подслои разделяются разделителем « /» и начинаются с характерной буквы префикса (за исключением подслоя химической формулы основного слоя). Шесть слоев с важными подслоями:

  1. Основной слой
    • Химическая формула (без префикса). Это единственный подслой, который должен встречаться в каждом InChI.
    • Атомные соединения (префикс: " c"). Атомы в химической формуле (кроме атомов водорода) пронумерованы последовательно; этот подслой описывает, какие атомы связаны связями с другими.
    • Атомы водорода (префикс: " h"). Описывает, сколько атомов водорода связано с каждым из остальных атомов.
  2. Слой заряда
    • подслой заряда (префикс: " q")
    • подслой протонов (префикс: " p" для "протонов")
  3. Стереохимический слой
    • двойные связи и кумулены (префикс: " b")
    • тетраэдрическая стереохимия атомов и алленов (префиксы: " t", " m")
    • тип информации о стереохимии (префикс: " s")
  4. Изотопный слой (префиксы: " i", " h", а также " b", " t", " m", " s" для изотопной стереохимии)
  5. Слой с фиксированным H (префикс: " f"); содержит некоторые или все вышеперечисленные типы слоев, за исключением соединений атомов; может заканчиваться oподслоем " "; никогда не входил в стандартный ИнХИ
  6. Повторно подключенный слой (префикс: " r"); содержит весь InChI структуры с пересоединенными атомами металла; никогда не входил в стандартный ИнХИ

Формат префикса-разделителя имеет то преимущество, что пользователь может легко использовать поиск по шаблону для поиска идентификаторов, которые соответствуют только на определенных уровнях.

InChIKey [ править ]

Сжатый 27-символьный InChIKey - это хешированная версия полного InChI (с использованием алгоритма SHA-256 ), разработанная для упрощения поиска химических соединений в Интернете. [6] стандарт InChIKey является хэшированным аналогом стандартного InChI . Большинство химических структур в Интернете до 2007 года были представлены в виде файлов GIF., которые не доступны для поиска по химическому содержанию. Полный InChI оказался слишком длинным для удобного поиска, поэтому был разработан InChIKey. Существует очень малая, но отличная от нуля вероятность того, что две разные молекулы будут иметь один и тот же InChIKey, но вероятность дублирования только первых 14 символов была оценена как только одно дублирование в 75 базах данных, каждая из которых содержит один миллиард уникальных структур. Поскольку все базы данных в настоящее время имеют менее 50 миллионов структур, такое дублирование в настоящее время представляется маловероятным. Недавнее исследование более подробно изучает частоту столкновений, обнаруживая, что экспериментальная частота столкновений соответствует теоретическим ожиданиям. [8]

InChIKey в настоящее время состоит из трех частей, разделенных дефисом, из 14, 10 и одного символа (ов) соответственно, например XXXXXXXXXXXXXX-YYYYYYYYFV-P. Первые 14 символов являются результатом хэша SHA-256 информации о подключении (основной уровень и /qподуровень уровня заряда) InChI. Вторая часть состоит из 8 символов, полученных из хэша оставшихся слоев InChI, одного символа, указывающего тип InChIKey ( Sдля стандартного и Nнестандартного), и символа, указывающего используемую версию InChI (в настоящее время Aдля версии 1. ) И, наконец, один символ в конце указует протонирование сердцевинной материнской структуры, соответствующий /pподслой заряда слоя ( Nбез всякой протонировании, O,P, ... , если необходимо добавить протоны и M, L... если они должны быть удалены.) [9] [5]

Пример [ править ]

Структура морфина

Морфин имеет структуру, показанную справа. Стандартный InChI для морфина - InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1это стандартный InChI для морфина BQJCRHHNABKAKU-KBQPJGBKSA-N. [10]

Резолверы InChI [ править ]

Поскольку InChI не может быть реконструирован из InChIKey, InChIKey всегда должен быть связан с исходным InChI, чтобы вернуться к исходной структуре. Резолверы InChI действуют как служба поиска для создания этих ссылок, а услуги прототипов доступны в Национальном институте рака , службе UniChem в Европейском институте биоинформатики и PubChem . У ChemSpider был резолвер до июля 2015 года, когда он был выведен из эксплуатации. [11]

Имя [ редактировать ]

Первоначально формат назывался IChI (химический идентификатор IUPAC), затем в июле 2004 г. был переименован в INChI (химический идентификатор IUPAC-NIST) и снова переименован в ноябре 2004 г. в InChI (международный химический идентификатор IUPAC), товарный знак IUPAC.

Продолжение разработки [ править ]

Научное руководство стандартом InChI осуществляется Подкомитетом IUPAC Division VIII, а финансирование подгрупп, исследующих и определяющих расширение стандарта, осуществляется как IUPAC, так и InChI Trust . InChI Trust финансирует разработку, тестирование и документирование InChI. Текущие расширения определяются для работы с полимерами и смесями , структурами Маркуша , реакциями [12] и металлоорганическими соединениями , и после их принятия Подкомитетом отдела VIII будут добавлены в алгоритм.

Программное обеспечение [ править ]

InChI Trust разработал программное обеспечение для генерации InChI, InChIKey и других идентификаторов. История выпуска этого программного обеспечения приводится ниже. [13]

Принятие [ править ]

InChI был принят во многих больших и малых базах данных, включая ChemSpider , ChEMBL , Golm Metabolome Database , OpenPHACTS и PubChem . [14] Однако принятие не является прямым, и многие базы данных показывают несоответствие между химическими структурами и InChI, которые они содержат, что является проблемой для связывания баз данных. [15]

См. Также [ править ]

  • Молекулярный язык запросов
  • Упрощенная система молекулярного ввода-вывода (SMILES)
  • Редактор молекул
  • Обозначение линии SYBYL
  • Bioclipse генерирует InChI и InChIKeys для нарисованных структур или открытых файлов.
  • Kit развития химии использует JNI-InChI для создания InChIs, может конвертировать InChIs в структуры, а также генерировать таутомеры на основе алгоритмов InChI

Примечания и ссылки [ править ]

  1. ^ "Страница проекта Международного химического идентификатора ИЮПАК" . ИЮПАК . Архивировано из оригинального 27 мая 2012 года . Проверено 5 декабря 2012 года .
  2. ^ Heller, S .; McNaught, A .; Stein, S .; Чеховской, Д .; Плетнев, И. (2013). «InChI - всемирный стандарт идентификаторов химических структур» . Журнал химинформатики . 5 (1): 7. DOI : 10,1186 / 1758-2946-5-7 . PMC 3599061 . PMID 23343401 .  
  3. ^ Макнот, Алан (2006). «Международный химический идентификатор ИЮПАК: InChl» . Chemistry International . 28 (6). ИЮПАК . Проверено 18 сентября 2007 .
  4. ^ http://www.inchi-trust.org/download/104/LICENCE.pdf
  5. ^ a b c d e Heller, SR; McNaught, A .; Плетнев, И .; Stein, S .; Чеховской Д. (2015). «InChI, международный химический идентификатор ИЮПАК» . Журнал химинформатики . 7 : 23. DOI : 10,1186 / s13321-015-0068-4 . PMC 4486400 . PMID 26136848 .  
  6. ^ a b «Международный химический идентификатор ИЮПАК (InChI)» . ИЮПАК . 5 сентября 2007 года архивации с оригинала на 30 октября 2007 года . Проверено 18 сентября 2007 .
  7. ^ EL Willighagen (17 сентября 2011). «Столкновение InChIKey: копии / пастилки своими руками» . Проверено 6 ноября 2012 .
  8. ^ Плетнев, И .; Erin, A .; McNaught, A .; Блинов, К .; Чеховской, Д .; Хеллер, С. (2012). «Устойчивость к столкновению InChIKey: экспериментальная проверка» . Журнал химинформатики . 4 (1): 39. DOI : 10,1186 / 1758-2946-4-39 . PMC 3558395 . PMID 23256896 .  
  9. ^ "Технический FAQ - InChI Trust" . inchi-trust.org . Дата обращения 8 января 2021 .
  10. ^ "InChI = 1 / C17H19NO3 / c1-18 ..." Chemspider . Проверено 18 сентября 2007 .
  11. ^ InChI Resolver, 27 июля 2015 г., http://www.chemspider.com/InChiResolverDecommissioned.aspx
  12. ^ a b Грета, Гюнтер; Бланке, Герд; Краут, Ганс; Гудман, Джонатан М. (9 мая 2018 г.). «Международный химический идентификатор реакций (РИнЧИ)» . Журнал химинформатики . 10 (1): 45. DOI : 10,1186 / s13321-018-0277-8 . PMC 4015173 . PMID 24152584 .  
  13. ^ Загрузки программного обеспечения InChI , по состоянию на 8 января 2021 г.
  14. Перейти ↑ Warr, WA (2015). «Множество инЧи и немало подвигов». Журнал компьютерного молекулярного дизайна . 29 (8): 681–694. Bibcode : 2015JCAMD..29..681W . DOI : 10.1007 / s10822-015-9854-3 . PMID 26081259 . 
  15. ^ Ахонди, SA; Kors, JA; Муресан, С. (2012). «Согласованность систематических химических идентификаторов внутри и между базами данных малых молекул» . Журнал химинформатики . 4 (1): 35. DOI : 10,1186 / 1758-2946-4-35 . PMC 3539895 . PMID 23237381 .  

Внешние ссылки [ править ]

  • Сайт ИЮПАК ИнЧИ
  • Описание алгоритма канонизации
  • Googling для InCh - это презентация для W3C.
  • InChI Release 1.02 Окончательная версия InChI 1.02 и объяснение стандарта InChI, январь 2009 г.
  • NCI / CADD Chemical Identifier Resolver Создает и разрешает InChI / InChIKeys и многие другие химические идентификаторы
  • Онлайн-редактор молекул PubChem , поддерживающий SMILES / SMARTS и InChI
  • ChemSpider Compound APIs ChemSpider REST API, который позволяет генерировать InChI и преобразовывать InChI в структуру (также SMILES и создание других свойств)
  • MarvinSketch от ChemAxon , реализация для рисования структур (или открытия файлов других форматов) и вывода в формат файла InChI
  • BKchem реализует собственный анализатор InChI и использует реализацию IUPAC для генерации строк InChI.
  • CompoundSearch реализует поиск по спектральным библиотекам InChI и InChI Key
  • SpectraBase реализует поиск спектральных библиотек InChI и InChI Key.
  • JSME - это бесплатный молекулярный редактор на основе JavaScript, который генерирует InChI и InChI Key в веб-браузере, что позволяет легко выполнять поиск химических соединений в Интернете.