Pojdi na vsebino

SMILES

Iz Wikipedije, proste enciklopedije
Generiranje SMILES: odpiranje obročev, ki se zatem zapišejo kot stranske verige glavne (najdaljše) verige molekule.

SMILES (iz angleškega Simplified Molecular Input Line Entry Specification) je specifikacija, ki za nedvoumen opis strukture molekul uporablja kratke nize ASCII znakov. Specifikacijo SMILES lahko večina urejevalnikov molekul pretvori nazaj v dvodimenzionalno risbo ali trodimenzionalen model molekule.

Izvirno specifikacijo SMILES sta v poznih 1980. letih razvila Arthur in David Weininger. Specifikacijo so kasneje razširili in dodelali drugi avtorji, med katerimi je najpomembnejši Daylight Chemical Information Systems Inc.. Leta 2007 je neformalna skupina kemikov Blue Obelisk razvila javno dostopen standard, imenovan "OpenSMILES". Med druge linearne notacije spadajo Wiswesser Line Notation (WLN), ROSDAL in SLN (Tripols Inc.).

Avgusta 2006 je IUPAC kot standard za prikazovanje kemijskih formul uvedel mednarodni kemijski identifikator (InChI). SMILES je po splošnem mnenju nekoliko boljši, ker je malo bolj čitljiv kot InChI in ima široko programsko podporo z obširnim teoretičnim ozadjem, na primer s teorijo grafov.

Terminologija

[uredi | uredi kodo]

Termin SMILES se nanaša na vrstični sistem znakov za kodiranje molekularnih struktur in bi se moral striktno imenovati "niz SMILES". Termin se uporablja tudi za druge namene, vendar je njegov pomen v posameznem primeru povsem razviden iz konteksta. Nekaj zmede pri uporabi lahko povzročita naziva Kanonski in Izomerni SMILES. Izrazi, ki opisujejo različne atribute nizov SMILES, se med seboj ne izključujejo.

Isto molekulo se običajno lahko zapiše z več enakovrednimi SMILES. Strukturo etanola (C2H5OH) se lahko na primer zapiše s CCO, OCC in C(O)C. Da bi se za vsako strukturo generiral en sam SMILES, ne glede na vrstni red atomov v molekuli, so se razvili številni algoritmi. Ta SMILES je za vsako strukturo edinstven, čeprav je odvisen od kanonizacijskega algoritma, ki ga je generiral, in se imenuje Kanonski SMILES. Vsi algoritmi najprej pretvorjo SMILES v notranjo predstavitev molekularne strukture in ne manipulirajo enostavno z nizi znakov kot se včasih domneva. Za generiranje Kanonskega SMILES je več algoritmov, med katerimi so najopaznejši tisti, ki so jih razvili v Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT in Chemical Computing Group. Skupne aplikacije Kanonskega SMILES so indeksirane in zagotavljajo edinstvenost molekul v bazah podatkov.

Notacija SMILES omogoča tudi specificiranje konfiguracij na tetraedričnih centrih in dvojnih vezeh. Tovrstne strukture kodira Izomerni SMILES, ki omogoča tudi natančno specifikacijo kiralnosti. Naziv Izomerni SMILES se uporablja tudi za SMILES za specificiranje izotopov.

Označevanje na osnovi grafa

[uredi | uredi kodo]

V računalniški proceduri, ki temelji na grafu spojine, se najprej odstranijo vodikovi atomi, zatem pa se odprejo obroči in se razvijejo v obliko razvejanega drevesa. Mesta, kjer so obroči prekinjeni, se označujejo s številkami, ki omogočajo povezovanje veznih točk. Za označevanje mest, kjer se glavna veriga razveja, se uporabljajo oklepaji.

Primeri

[uredi | uredi kodo]

Atomi

[uredi | uredi kodo]

Atomi se pišejo z njihovimi simboli v oglatih oklepajih, na primer [Ag] za srebro. Izjema so "organski" elementi B, C, N, O, P, S, F, Cl, Br in I, pri katerih se oklepaji lahko izpustijo. Izpuščeni oklepaji istočasno pomenijo pripadajoče število implicitnih vodikovih atomov. Primer: SMILES za vodo je preprosto O.

Atomi, ki imajo enega ali več električnih nabojev (ioni), se pišejo v oklepajih. Če je na element vezan vodik, simbolu elementa sledi simbol H in število pozitivnih (+) ali negativnih (-) nabojev. Edina izjema je amonij, ki se piše z NH4. Če je število nabojev večje od 1, se njihovo število lahko piše na primer s "Ti+4" ali "Ti++++" za titan(IV) oziroma Ti4+. Hidroksidni ion se torej zapiše z [OH-], oksonijev ion z [OH+3], kobaltov(III) kation (Co3+) pa s [Co+3] ali [Co+++].

Če ni posebej označeno, se vezi med alifatskimi atomi obravnavajo kot enojne in se ne pišejo. Primer: etanol (CH2-CH2-OH) se zapiše s CCO. Mesta, na katerih se stikajo obroči, so označena s številkami na dveh nesosednjih atomih. Cikloheksan in dioksan se zato zapišeta kot C1CCCCC1 oziroma O1CCOCC1. Vezna mesta na naslednjem obroču so označena s številko 2. in tako naprej. Naftalen se zato zapiše kot c1cccc2c1cccc2. Da ne bi prihajalo do nesporazumov, se obroči od 10. dalje označujejo s predznakom '%'. Oznaka ~C12~ zato pomeni, da označeni ogljikov atom zapira 1. in 2. obroč, oznaka ~C%12~ pa da gre za 12. obroč v neki strukturi. Dvojne in trojne vezi se označujejo s simboloma '=' oziroma '#'. SMILES O=C=O pomeni ogljikov dioksid (CO2), C#N pa vodikov cianid (HCN).

Aromatičnost

[uredi | uredi kodo]
Prikaz kodiranja 3-cianoanizola v COc(c1)cccc1C#N.

Aromatski atomi C, O, S in N so prikazani z malimi črkami 'c', 'o', 's' in 'n'. Benzen, piridin in furan se s SMILES zapišejo s c1ccccc1, n1ccccc1 in o1cccc1. Vezi med aromatskimi atomi so po dogovoru aromatske, vendar se lahko zapišejo zudi eksplicitno s simbolom ':'. Aromatski atomi so lahko med seboj povezani tudi z enojnimi vezmi, zato se bifenil lahko zapiše s c1ccccc1-c2ccccc2. Aromatski dušik, vezan na vodik, na primer v pirolu, mora biti zapisan z [nH]. Imidazol se zato v notaciji SMILES zapiše z n1c[nH]cc1.

Algoritma Daylight in OpenEye za generiranje kanonskega SMILES obravnavata aromatičnost drugače.

Razvejanost

[uredi | uredi kodo]

Stranske verige se pišejo v oklepajih, na primer s CCC(=O)O za propanojsko kislino in za C(F)(F)F fluoroform. Substituirani obroči se lahko pišejo z mestom razvejanja v obroču, na primer s COc(c1)cccc1C#N in COc(cc1)ccc1C#N. Zapisa predstavljata izomera 3 in 4-cianoanizol. Takšen zapis zapisovanja substituiranih obročev je za uporabnika malo bolj razumljiv.

Stereokemija

[uredi | uredi kodo]

Konfiguracije ob dvojni vezi se opisujejo z znakoma "/" in "\". Primer: zapis F/C=C/F predstavlja trans-difluoroeten, v katerem sta flourova atoma na nasprotnih straneh dvojne vezi. Zapis F/C=C\F je eden od možnih zapisov cis-difluoroetena, v katerem sta fluorova atoma na isti strani dvojne vezi.

Konfiguracija na kvartetnem ogljiku se opiše z znakoma @ ali @@. L-alanin, ki je najbolj pogost anantiomer amino kisline alanin, se lahko zapiše z N[C@@H](C)C(=O)O. Simbola @@ pomenita, da si substituente vodik (H), metil (C) in karboksilat (C(=O)O) sledijo v smeri urnega kazalca, kadar gledamo od dušika vzdolž vezi do hiralnega centra. D-alanin se lahko zapiše z N[C@H](C)C(=O)O. Vrstni red substituent v nizih SMILES je zelo pomemben in D-alanin se lahko zapiše tudi z N[C@@H](C(=O)O)C.

Izotopi

[uredi | uredi kodo]

Izotopi se zapisujejo s celoštevilčnimi vrednostmi njihove atomske mase, katerim sledi simbol izotopa. Benzen z enim ogljikom C14, se zapiše z [14c]1ccccc1, devterokloroform pa z [2H]C(Cl)(Cl)Cl.

Zapisi nekaterih spojin

[uredi | uredi kodo]
Molekula Zgradba SMILES
Dušik N≡N N#N
Metil izocianat (MIC) CH3–N=C=O CN=C=O
Bakrov(II) sulfat Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
Enantotoksin (C17H22O2) Zgradba molekule enantootksina CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Piretrin II (C21H28O3) Zgradba molekule piretrina II COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Aflatoksin B1 (C17H12O6) Zgradba molekule aflatoksina B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glukoza (glukopiranoza) (C6H12O6) Zgradba molekule glukopiranoze OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Kuskutin ali bergenin (smola) (C14H16O9) Zgradba molekule kuskutina (bergenina) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Feromon kalifornijskega insekta iz reda Hemiptera (3Z,6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetate CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-halkogran: ferpmon hrošča Pityogenes chalcographus[1] (2S,5R)-2-ethyl-1,6-dioxaspiro[4.4]nonane CC[C@H](O1)CC[C@@]12CCCO2
Vanilin Zgradba molekule vanilina O=Cc1ccc(O)c(OC)c1
Melatonin (C13H16N2O2) Zgradba molekule melatonina CC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopereirin (C17H15N2) Zgradba molekule flavopereirina CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nikotin (C10H14N2) Zgradba molekule nikotina CN1CCC[C@H]1c2cccnc2
Alfa-tujon (C10H16O) Zgradba mulekule tujona CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamin (C12H17ClN4OS+)
(vitamine B1)
Zgradba molekule tiamina OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2


Prikaz molekule cefalostatina-1.[2] Cefalostatin je steroidni trisdekaciklični pirazin z empirično formulo C54H74N2O10, ki so ga izolirali iz polhordate Cephalodiscus gilchristi iz Indijskega oceana:

Zgradba molekule cefalostatina-1
Zgradba molekule cefalostatina-1

Kodiranje se začne pri najbolj levi metilni skupini na zgornji sliki. SMILES cefalostatina-1 je:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

Drugi primeri SMILES

[uredi | uredi kodo]

Notacija SMILES je obširno opisana v priročniku SMILES theory manual, ki ga je izdala družba Daylight Chemical Information Systems. V priročniku so tudi številni izbrani primeri. Ena od rutin (depict utility Arhivirano 2001-12-02 na Wayback Machine.) omogoča uporabniku preverjanje njegovih primerov SMILES in je zato zelo uporabno orodje za učenje.

Pretvarjanje

[uredi | uredi kodo]

SMILES se lahko z raznimi programskimi orodji[3] pretvori nazaj v dvodimenzionalen prikaz. Pretvorba ni vedno nedvoumna. Možna je tudi pretvorba v tridimenzionalen prikaz. Za pretvarjanje SMILES so na spletu na razpolago številna orodja.

Glej tudi

[uredi | uredi kodo]

Zunanje povezave

[uredi | uredi kodo]

Specifikacije

[uredi | uredi kodo]

Programska orodja

[uredi | uredi kodo]

Sklici

[uredi | uredi kodo]