InChI
InChI je zkratka pro anglický termín IUPAC International Chemical Identifier, tedy česky „Mezinárodní chemický identifikátor IUPAC“. Jedná se o textový identifikátor chemických látek, navržený jako standardní, strojově a částečně lidsky čitelný způsob, jak kódovat informace o molekulách a umožnit vyhledávání takových informací v databázích a na webu. Systém InChI byl vyvinut IUPAC a NIST v období let 2000–2005. Od roku 2009 jeho údržbu, vývoj a propagaci zařizuje britská nezisková organizace InChi Trust. Formát a algoritmy pro generaci InChI jsou otevřené, software je volně k dispozici pod licencí IUPAC-InChI Trust License (modifikovaná verze GNU LGPL, která byla používaná do verzi 1.04), byť je označení „InChI“ ochrannou známkou IUPAC.[1]
InChI identifikátor popisuje strukturu pomoci hierarchicky uspořádaných vrstev. Zahrnutí jednotlivých vrstev nebo podvrstev je možno částečně zvolit, díky čemu mohou vznikat různě precizní popisy. Zároveň pro stejnou strukturu méně precizní popis (obsahující méně vrstev) je součásti preciznějšího. Způsobuje to také možnost vytvoření většího počtu InChI identifikátorů pro stejnou strukturu. Pro zavedení absolutní jednoznačnosti používá se standardní InChI, který mimo jiné nezohledňuje tautomery.[2]
Výhodou InChI oproti dalším identifikátorům je jednak jeho volná dostupnost, jednak jeho jednoznačnost a standardizace. Navíc, oproti arbitrární reprezentaci CAS registračních čísel, InChI odráží informaci o reprezentované struktuře (podobně jako SMILES).
InChI klíč (InChIKey) je hash vytvořený z InChI identifikátoru, používaný zejména pro jednodušší vyhledávaní a indexování. Standardní InChIKey je pak InChIKey odvozený ze standardního InChI. Kvůli podstatě hashování není možné získat InChI zpětně z InChI klíče, místo toho používá se vyhledávací služby ("resolvers"), které mají uložené páry InChI a odpovídajících InChIKey.
Popis formátu
[editovat | editovat zdroj]InChI řetězec popisuje 2D strukturu chemické molekuly (pro popis 3D struktury lze použit např. PDB, mmCIF). Informace o struktuře je uspořádaná do vrstev a podvrstev, které jsou oddělené znakem , za kterým většinou následuje jednopísmenný prefix specifikující obsah (pod)vrstvy. InChI začíná "InChI=1", kde "1" označuje verzi, a následně obsahuje vrstvy:
- Hlavní — obsahuje sumární vzorec (bez prefixu) a popis spojení atomů (), přičemž informace o atomech vodíků jsou uvedené v oddělené podvrstvě ();
- Nábojová — informuje o celkovým náboji () a počtu protonů odečtených nebo přičtených kvůli normalizaci struktury ();
- Stereochemická — řeší E/Z izomerii dvojných vazeb () a tetrahedrální stereocentra ();
- Izotopická — vyjmenovává jiné než standardní izotopy () a jejich případné dopady na stereometrickou vrstvu ();
- Fixovaných vodíků — pokud struktura obsahuje pohyblivé vodíky, je možno je zafixovat a získat tak reprezentaci konkrétního tautomeru, proto tato vrstva nese informace o tom, kde jsou zafixovaný () a o případných změnách oproti dřívějším vrstvám ().
Jako šestou vrstvu uvádí se vrstvu spojení s kovy ("reconnected layer")[3], případně vrstvu fixovaných izotopických vodíků nebo vrstvu polymeru[2]. Struktury nemusí obsahovat všechny vrstvy, pokud informace v nich obsažené nejsou aplikovatelné např. atomické stříbro bude reprezentováno pouze hlavní vrstvou: "InChI=1/Ag". Standardní InChI obsahuje pouze první čtyři vrstvy, navíc je označen písmenem "S" za číslem verze.
Příklady InChI
[editovat | editovat zdroj]Příklad standardního InChI pro theobromin:

Jednotlivé části jsou interpretované následovně:
- — verze InChI a označení standardu;
- — sumární vzorec;
- — popis spojení atomů (hlavních 13, tedy bez vodíků), bez zohlednění násobných vazeb či aromaticity; číslování je kanonicky vytvořeno v procesu generace InChI,
- — popis umístěni vodíků, z označením na které hlavní atomy jsou navázané a v jakém množství; poslední skupina v závorce označuje mobilní proton;
- další vrstvy (nábojová, stereochemická, izotopická) nejsou obsažené.

L-serin oproti theobrominu obsahuje stereocentrum, co je zohledněno zahrnutím stereochemické vrstvy do standardního InChI:
Generace InChI
[editovat | editovat zdroj]Algoritmus převádějící nakreslenou strukturu do InChI identifikátoru skládá se ze tři základních kroků:[2]
- Normalizace — převod na základní strukturu, která je jednotná pro různě protonované stavy a nezávislá na způsobu nakreslení. Tento krok zahrnuje řadu dílčích procesů, mimo jiné: převedení nábojů mezi atomy, rozpojení vazeb v solích nebo organokovových sloučeninách či odstranění radikálů.
- Kanonizace — vytvoření kanonických označení atomů. V rámci toho procesu struktura je zpracovaná ve vrstvách, které korespondují s vrstvami výsledného InChI.
- Serializace — zapsání vytvořené reprezentace do výsledného řetězce.
InChIKey
[editovat | editovat zdroj]Pro usnadnění vyhledávání a ukládání InChI identifikátorů byla zavedená jejich reprezentace pomoci hashe. InChIKey má vždy délku 27 znaků (nezávislé na délce samotného InChI). Obsahem jsou tři bloky kódované velkými písmeny anglické abecedy, oddělené pomlčkami:
- informace o spojeních atomů a náboji (především hlavní vrstva) — 14 znaků,
- zbylé vrstvy, kromě informaci o protonech — 8 znaků, plus označení standardu a verze,
- protonová podvrstva — 1 znak.
InChIKey je standardní pokud byl vygenerován ze standardního InChI; jinak je proces převodu stejný pro standardní a nestandardní klíče.
Proces hashování přináší riziko kolize (dva různé InChI identifikátory mohou mít stejnou InChIKey reprezentaci), co stojí v rozporu se zaměřenou jednoznačnosti identifikace. Odhadovaná pravděpodobnost kolize pro InChIKey je dostatečně malá oproti objemu struktur popsaných InChI[2][6] a je v shodě s experimentálními výsledky[7].
Příklady InChIKey pro dříve uvedené InChI:
- — klíč pro theobromin, předposlední "S" v druhém bloku označuje standard, poslední blok kóduje náboj (v tom případě neutrální);
- — klíč pro L-serin.
Vývoj InChI
[editovat | editovat zdroj]Podpora některých vlastnosti InChI je experimentální a není části standardu např. reprezentace polymerů či struktur s velkým množstvím atomů (pokud jsou použité, InChI a InChIKey obsahují označení "B" místo standardního "S")[2]. Dále v rámci InChI Trust existuje řada pracovních skupin, které vyvíjí vlastnosti rozšiřující InChI např. podporu reprezentaci směsí (MInChI), reakcí (RInChI) či QR formu InChI (QRInChI).
Související články
[editovat | editovat zdroj]Reference
[editovat | editovat zdroj]- ↑ MCNAUGHT, Alan. The IUPAC International Chemical Identifier:InChl. Chemistry International. IUPAC, 2006. Dostupné online [cit. 2007-09-18].
- ↑ a b c d e InChI/INCHI-1-DOC/TechMan/InChI_TechMan.pdf at main · IUPAC-InChI/InChI. GitHub [online]. [cit. 2025-02-04]. Dostupné online. (anglicky)
- ↑ HELLER, Stephen R; MCNAUGHT, Alan; PLETNEV, Igor. InChI, the IUPAC International Chemical Identifier. Journal of Cheminformatics. 2015-12, roč. 7, čís. 1. Dostupné online [cit. 2025-02-04]. ISSN 1758-2946. doi:10.1186/s13321-015-0068-4. PMID 26136848. (anglicky)
- ↑ Compound: THEOBROMINE (CHEMBL1114). www.ebi.ac.uk [online]. [cit. 2025-02-05]. Dostupné online.
- ↑ Compound: SERINE (CHEMBL11298). www.ebi.ac.uk [online]. [cit. 2025-02-05]. Dostupné online.
- ↑ InChI Technical FAQ - InChI Trust. InChI Trust. Dostupné v archivu pořízeném z originálu dne 2024-12-25. (anglicky)
- ↑ PLETNEV, Igor; ERIN, Andrey; MCNAUGHT, Alan. InChIKey collision resistance: an experimental testing. Journal of Cheminformatics. 2012-12, roč. 4, čís. 1. Dostupné online [cit. 2025-02-05]. ISSN 1758-2946. doi:10.1186/1758-2946-4-39. PMID 23256896. (anglicky)
Externí odkazy
[editovat | editovat zdroj]Dokumentace a prezentace
[editovat | editovat zdroj]- Oficiální stránky IUPAC
- Informace o InChI Archivováno 6. 3. 2012 na Wayback Machine.
- InChI Technical Manual
- Description of the canonicalization algorithm
- Googling for InChIs a presentation to the W3C.
- The Semantic Chemical Web: GoogleInChI and other Mashups Archivováno 27. 3. 2012 na Wayback Machine., Google Tech Talk by Peter Murray-Rust, 13 Sept 2006
- IUPAC InChI Archivováno 25. 11. 2011 na Wayback Machine., Google Tech Talk by Steve Heller and Steve Stein, 2 November 2006
- InChI Release 1.02 InChI final version 1.02 and explanation of Standard InChi, January 2009
Software a služby
[editovat | editovat zdroj]- NCI/CADD Chemical Identifier Resolver Generates and resolves InChI/InChIKeys and many other chemical identifiers
- Generate InChI (interactive service at University of Cambridge, either interactive or WSDL)
- Search Google for molecules (generates InChI from interactive chemical and searches Google for any pages with embedded InChIs). Requires Javascript enabled on browser
- ChemSketch Archivováno 18. 10. 2006 na Wayback Machine., free chemical structure drawing package that includes input and output in InCHI format
- PubChem online molecule editor that supports SMILES/SMARTS and InChI
- ChemSpider Services that allows generation of InChI and conversion of InChI to structure (also SMILES and generation of other properties)
- MarvinSketch from ChemAxon, implementation to draw structures (or open other file formats) and output to InChI file format
- BKchem Archivováno 9. 6. 2007 na Wayback Machine. implements its own InChI parser and uses the IUPAC implementation to generate InChI strings