Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Химическая база данных представляет собой базу данных , специально предназначенные для хранения информации о химических веществах . Это информация о химических и кристаллических структурах , спектрах, реакциях и синтезах, а также теплофизических данных.

Типы химических баз данных [ править ]

База данных по биоактивности [ править ]

Биологическая активность баз данных коррелируют структуры или другую химическую информацию результатов биоактивности , взятую из биопроб в литературе, патентах и программы скрининга.

Химические структуры [ править ]

Химические структуры традиционно изображаются линиями, обозначающими химические связи между атомами, и нарисованы на бумаге (2D структурные формулы ). Хотя это идеальные визуальные представления для химика , они не подходят для использования в вычислениях, особенно для поиска и хранения . Небольшие молекулы (также называемые лигандамив приложениях для разработки лекарств), обычно представлены в виде списков атомов и их связей. Однако большие молекулы, такие как белки, более компактно представлены с использованием последовательностей их аминокислотных строительных блоков. Ожидается, что большие химические базы данных для структур будут обрабатывать хранение и поиск информации о миллионах молекул, занимающих терабайты физической памяти.

База данных литературы [ править ]

Базы данных химической литературы коррелируют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. Этот тип базы данных включает STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, посвященные химическим характеристикам.

Кристаллографическая база данных [ править ]

В кристаллографических базах данных хранятся рентгеновские данные о кристаллической структуре. Общие примеры включают в себя банк данных по протеинам и Кембриджскую структурную базу данных .

База данных спектров ЯМР [ править ]

База данных спектров ЯМР коррелирует химическую структуру с данными ЯМР. Эти базы данных часто включают другие характеристические данные, такие как FTIR и масс-спектрометрия .

База данных реакций [ править ]

В большинстве химических баз данных хранится информация о стабильных молекулах, но в базах данных для реакций также хранятся промежуточные соединения и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, продуктах и механизмах реакции .

Теплофизическая база данных [ править ]

Теплофизические данные - это информация о

  • фазовые равновесия, включая равновесие пара и жидкости , растворимость газов в жидкостях, жидкостей в твердых телах (SLE), теплоты смешения, испарения и плавления .
  • калорийность, такая как теплоемкость , теплота образования и сгорания ,
  • транспортные свойства, такие как вязкость и теплопроводность

Представление химической структуры [ править ]

Существует два основных метода представления химических структур в цифровых базах данных.

  • В связи таблиц / смежности матрицы / списки с дополнительной информацией о связи (ребра) и атрибуты атомов (узлы), таких как:
    MDL Molfile , PDB , CML
  • В виде линейной строковой записи, основанной на обходе в глубину или в ширину , например:
    УЛЫБКИ / СМАРТС, SLN , WLN , InChI

Эти подходы были усовершенствованы, чтобы позволить представить стереохимические различия и заряды, а также особые виды связи, такие как те, которые наблюдаются в металлоорганических соединениях. Основным преимуществом компьютерного представления является возможность увеличения объема памяти и быстрого и гибкого поиска.

Искать [ редактировать ]

Подструктура [ править ]

Химики могут искать в базах данных по частям структур, частям своих имен ИЮПАК, а также на основе ограничений свойств. Химические базы данных особенно отличаются от других баз данных общего назначения тем, что они поддерживают поиск по субструктуре. Такой поиск достигается путем поиска изоморфизма подграфов (иногда также называемого мономорфизмом ) и является широко изучаемым приложением теории графов . Алгоритмы поиска требуют больших вычислительных ресурсов, часто имеют временную сложность O ( n 3 ) или O ( n 4 ) (где nколичество задействованных атомов). Интенсивный компонент поиска называется поиск по атомам (ABAS), при котором ищется отображение атомов субструктуры поиска и связей с целевой молекулой. Поиск ABAS обычно использует алгоритм Ульмана [6] или его разновидности ( например, SMSD [7] ). Ускорение достигается за счет амортизации времени , то есть часть времени на поисковые задачи сохраняется за счет использования предварительно вычисленной информации. Это предварительное вычисление обычно включает создание битовых строк.представляющий наличие или отсутствие молекулярных фрагментов. Посмотрев на фрагменты, присутствующие в структуре поиска, можно исключить необходимость сравнения ABAS с целевыми молекулами, которые не обладают фрагментами, присутствующими в структуре поиска. Это исключение называется скринингом (не путать с процедурами скрининга, используемыми при поиске лекарств). Битовые строки, используемые для этих приложений, также называются структурными ключами. Производительность таких ключей зависит от выбора фрагментов, используемых для построения ключей, и вероятности их присутствия в молекулах базы данных. Другой тип ключа использует хэш-коды.на основе фрагментов, полученных вычислительным способом. Их называют «отпечатками пальцев», хотя этот термин иногда используется как синоним структурных ключей. Объем памяти, необходимый для хранения этих структурных ключей и отпечатков пальцев, может быть уменьшен за счет «складывания», что достигается путем объединения частей ключа с помощью побитовых операций и, таким образом, уменьшения общей длины. [8]

Соответствие [ править ]

Поиск путем сопоставления трехмерной конформации молекул или определения пространственных ограничений - еще одна функция, которая особенно полезна при разработке лекарств . Поиск такого рода может быть очень дорогостоящим в вычислительном отношении. Было предложено много приближенных методов, например BCUTS, представления специальных функций, моменты инерции, гистограммы трассировки лучей, гистограммы максимального расстояния, мультиполи формы и многие другие. [9] [10] [11] [12] [13]

Giga Search [ править ]

Базы данных синтезируемых и виртуальных химических веществ становятся все больше с каждым годом, поэтому способность эффективно их добывать имеет решающее значение для проектов по открытию лекарств. Поиск MolCart Giga Search от компании MolSoft ( http://www.molsoft.com/giga-search.html ) - это первый в истории метод, разработанный для поиска субструктур в миллиардах химических веществ.

Дескрипторы [ править ]

Все свойства молекул за пределами их структуры можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Вдобавок к этому существуют различные искусственные и более или менее стандартизированные системы именования молекул, которые дают более или менее двусмысленные имена и синонимы . Название ИЮПАК обычно является хорошим выбором для представления структуры молекулы в виде удобочитаемой и уникальной строки, хотя для более крупных молекул оно становится громоздким. С другой стороны, тривиальные имена изобилуют омонимами и синонимами и поэтому являются плохим выбором в качестве определяющего ключа базы данных.. While physico-chemical descriptors like molecular weight, (partial) charge, solubility, etc. can mostly be computed directly based on the molecule's structure, pharmacological descriptors can be derived only indirectly using involved multivariate statistics or experimental (screening, bioassay) results. All of those descriptors can for reasons of computational effort be stored along with the molecule's representation and usually are.

Similarity[edit]

There is no single definition of molecular similarity, however the concept may be defined according to the application and is often described as an inverse of a measure of distance in descriptor space. Two molecules might be considered more similar for instance if their difference in molecular weights is lower than when compared with others. A variety of other measures could be combined to produce a multi-variate distance measure. Distance measures are often classified into Euclidean measures and non-Euclidean measures depending on whether the triangle inequality holds. Maximum Common Subgraph (MCS) based substructure search [7](similarity or distance measure) is also very common. MCS is also used for screening drug like compounds by hitting molecules, which share common subgraph (substructure).[14]

Chemicals in the databases may be clustered into groups of 'similar' molecules based on similarities. Both hierarchical and non-hierarchical clustering approaches can be applied to chemical entities with multiple attributes. These attributes or molecular properties may either be determined empirically or computationally derived descriptors. One of the most popular clustering approaches is the Jarvis-Patrick algorithm .[15]

In pharmacologically oriented chemical repositories, similarity is usually defined in terms of the biological effects of compounds (ADME/tox) that can in turn be semiautomatically inferred from similar combinations of physico-chemical descriptors using QSAR methods.

Registration systems[edit]

Databases systems for maintaining unique records on chemical compounds are termed as Registration systems. These are often used for chemical indexing, patent systems and industrial databases.

Registration systems usually enforce uniqueness of the chemical represented in the database through the use of unique representations. By applying rules of precedence for the generation of stringified notations, one can obtain unique/'canonical' string representations such as 'canonical SMILES'. Some registration systems such as the CAS system make use of algorithms to generate unique hash codes to achieve the same objective.

A key difference between a registration system and a simple chemical database is the ability to accurately represent that which is known, unknown, and partially known. For example, a chemical database might store a molecule with stereochemistry unspecified, whereas a chemical registry system requires the registrar to specify whether the stereo configuration is unknown, a specific (known) mixture, or racemic. Each of these would be considered a different record in a chemical registry system.

Registration systems also preprocess molecules to avoid considering trivial differences such as differences in halogen ions in chemicals.

An example is the Chemical Abstracts Service (CAS) registration system. See also CAS registry number.

List of Chemical Cartridges[edit]

  • Accord
  • Direct [16]
  • J Chem [17]
  • CambridgeSoft [18]
  • Bingo [19]
  • Pinpoint [20]

List of Chemical Registration Systems[edit]

  • ChemReg [21]
  • Register[22]
  • RegMol [23]
  • Compound-Registration [24]
  • Ensemble [25]

Web-based[edit]

Tools[edit]

The computational representations are usually made transparent to chemists by graphical display of the data. Data entry is also simplified through the use of chemical structure editors. These editors internally convert the graphical data into computational representations.

There are also numerous algorithms for the interconversion of various formats of representation. An open-source utility for conversion is OpenBabel. These search and conversion algorithms are implemented either within the database system itself or as is now the trend is implemented as external components that fit into standard relational database systems. Both Oracle and PostgreSQL based systems make use of cartridge technology that allows user defined datatypes. These allow the user to make SQL queries with chemical search conditions (For example, a query to search for records having a phenyl ring in their structure represented as a SMILES string in a SMILESCOL column could be

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Algorithms for the conversion of IUPAC names to structure representations and vice versa are also used for extracting structural information from text. However, there are difficulties due to the existence of multiple dialects of IUPAC. Work is on to establish a unique IUPAC standard (See InChI).

See also[edit]

  • Biological database
  • Beilstein database and Dortmund Data Bank
  • BindingDB
  • ChEBI
  • ChEMBL
  • Chemisches Zentralblatt Structural Database
  • ChemSpider
  • Collaborative Drug Discovery
  • Comparative Toxicogenomics Database
  • Computational Chemistry List
  • DrugBank
  • List of chemical databases
  • List of software for molecular mechanics modeling
  • LOLI Database
  • NMR spectra database
  • PubChem
  • SPRESI database
  • Colocalization Benchmark Source

References[edit]

  1. ^ http://www.scrubchem.org
  2. ^ Harris, JB (2019). "Post-processing of Large Bioactivity Data". Bioinformatics and Drug Discovery. Methods Mol Biol. 1939. pp. 37–47. doi:10.1007/978-1-4939-9089-4_3. ISBN 978-1-4939-9088-7. PMID 30848455.
  3. ^ https://pubchem.ncbi.nlm.nih.gov/
  4. ^ Wang, Y; Bryant, SH; Cheng, T; Wang, J; Gindulyte, A; Shoemaker, BA; Thiessen, PA; He, S; Zhang, J (2017). "PubChem BioAssay: 2017 update". Nucleic Acids Res. 45 (D1): D955–D963. doi:10.1093/nar/gkw1118. PMC 5210581. PMID 27899599.
  5. ^ https://www.ebi.ac.uk/chembl/
  6. ^ Ullmann, Julian R. (1976), "An algorithm for subgraph isomorphism", Journal of the ACM, 23 (1): 31–42, CiteSeerX 10.1.1.361.7741, doi:10.1145/321921.321925, S2CID 17268751
  7. ^ a b Rahman, S. A.; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2000). "Small Molecule Subgraph Detector (SMSD) toolkit". Journal of Cheminformatics. 1 (1): 12. doi:10.1186/1758-2946-1-12. PMC 2820491. PMID 20298518.
  8. ^ Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renee L. (2007). "Processing of Small Molecule Databases for Automated Docking". Medicinal Chemistry. 3 (1): 107–113. doi:10.2174/157340607779317481. PMID 17266630.
  9. ^ Pearlman, R.S.; Smith, K.M. (1999). "Metric Validation and the Receptor-Relevant Subspace Concept". J. Chem. Inf. Comput. Sci. 39: 28–35. doi:10.1021/ci980137x.
  10. ^ Lin, Jr., Hung; Clark, Timothy (2005). "An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties". Journal of Chemical Information and Modeling. 45 (4): 1010–1016. doi:10.1021/ci050059v. PMID 16045295.
  11. ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). "Shape Signatures: speeding up computer aided drug discovery". DDT 2006. 19–20 (19–20): 895–904. doi:10.1016/j.drudis.2006.08.014. PMID 16997139.
  12. ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. (1996). "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape". Journal of Computational Chemistry. 17 (14): 1653–1666. doi:10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k.
  13. ^ Ballester, P. J.; Richards, W. G. (2007). "Ultrafast shape recognition for similarity search in molecular databases". Proceedings of the Royal Society A. 463 (2081): 1307–1321. Bibcode:2007RSPSA.463.1307B. doi:10.1098/rspa.2007.1823. S2CID 12540483.
  14. ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2009). "Small Molecule Subgraph Detector (SMSD) Toolkit". Journal of Cheminformatics. 1 (1): 12. doi:10.1186/1758-2946-1-12. PMC 2820491. PMID 20298518.
  15. ^ Butina, Darko (1999). "Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets". Chem. Inf. Comput. Sci. 39 (4): 747–750. doi:10.1021/ci9803381.
  16. ^ https://www.3ds.com/products-services/biovia/products/scientific-informatics/biovia-direct/
  17. ^ https://chemaxon.com/products/jchem-engines
  18. ^ http://insideinformatics.cambridgesoft.com/categories/chemistry/oraclecartridge/default.aspx
  19. ^ Pavlov, D.; Rybalkin, M.; Karulin, B. (2010). "Bingo from SciTouch LLC: Chemistry cartridge for Oracle database". Journal of Cheminformatics. 2 (Suppl 1): F1. doi:10.1186/1758-2946-2-S1-F1. PMC 2867114.
  20. ^ https://www.dotmatics.com/solutions/small-molecule-discovery
  21. ^ https://www.3ds.com/products-services/biovia/products/laboratory-informatics/materials-management/biovia-registration/biovia-chemical-registration/
  22. ^ https://www.dotmatics.com/register
  23. ^ https://www.scilligence.com/web/scilligence-regmol/
  24. ^ https://chemaxon.com/products/compound-registration
  25. ^ https://www.cambridgesoft.com/Ensemble_for_Chemistry/Registration/Default.aspx
  26. ^ https://www.collaborativedrug.com/cdd-vault-update-cdd-vault-is-now-an-eln/
  27. ^ https://www.collaborativedrug.com/benefits/eln/
  28. ^ https://www.collaborativedrug.com/electronic-lab-notebooks-what-they-are-and-why-you-need-one/