Tietokanta

Wikipediasta
Tämä on arkistoitu versio sivusta sellaisena, kuin se oli 21. lokakuuta 2019 kello 18.06 käyttäjän Ipr1 (keskustelu | muokkaukset) muokkauksen jälkeen. Sivu saattaa erota merkittävästi tuoreimmasta versiosta.
Siirry navigaatioon Siirry hakuun

Tietokanta on järjestetty tietokoneen tallentama tietojen ja informaation kooste.[1] Ne ovat määrättyä tarkoitusta varten koottuja tiedostokokoelmia, joista hakumenetelmillä saadaan yksittäinen tieto tai tietoyhdistelmiä ja jota voidaan korjailla tai täydentää (päivitys). Yleisimmät tietokantaohjelmistot (nk. relaatiotietokannat) perustuvat ns. relaatiomalliin.[2][3][4] Relaatiomallin vaihtoehtona tietokannat voivat perustua muun muassa oliomalliin tai graafimalliin.

Tietokantojen historiaa

Vuonna 1959 perustettu CODASYL-komitea määritteli tietokannan hallintajärjestelmiä, joiden ensimmäinen määrittely julkaistiin vuonna 1969.[5]

Modernien tietokantojen edeltäjiä kehitettiin 1960-luvulla.

Alan pioneeri oli Charles Bachman. Bachmanin artikkeli The Programmer as Navigator julkaistiin vuonna 1973 Communications of the ACM -lehdessä.[6] Artikkeli johti niin sanotun navigaatiomallin kehittämiseen, joka liitetään usein hierarkisen ja verkkomallin tietokantoihin.

Tietokantojen relaatiomallin ja käsittelyteorian kehitti Edgar F. Codd, jonka artikkeli A Relational Model of Data for Large Shared Data Banks julkaistiin vuonna 1970 Communications of the ACM -lehdessä.[7][8] Codd työskenteli IBM:n tutkimuslaboratoriossa ja hän johti ensimmäisten relaatiotietokantojen testiversioiden kehitystyötä. Vuosina 1973-1976 IBM laboratoriossa kehitettiin relaatiotietokannan prototyyppiä nimeltä System R. IBM:n kaupallinen tietokantatuote DB2 julkaistiin 1982.

Hierarkkinen malli toteutettiin ensimmäisenä, sen jälkeen verkkomalli, sitten relaatiomalli ohitti ne niin kutsutun "Flat-File"-mallin kanssa, joka oli helppo toteuttaa vaatimattomiinkin alustoihin.lähde? Hierarkkinen, verkko ja Flat-tiedostomalli eivät perustu vahvaan teoreettiseen pohjaan niin kuin relaatiomalli, vaan ne ovat syntyneet laitteiston ja ohjelmointiteknisten rajoitteiden vaikutuksesta.

Olio-ohjelmoinnin yleistyttyä myös tietokantoja on kehitetty vastaamaan oliomallin asettamiin tarpeisiin. On kehitetty puhtaita oliotietokantoja sekä perinteisiin relaatiokantoihin on lisätty olio-ohjelmointia tukevia ominaisuuksia. Jälkimmäisistä käytetään nimeä olio-relaatiotietokannat.

NoSQL-tietokannaksi kutsuttiin aluksi Carlo Strozzin vuonna 1998 esittämää järjestelmää, jossa ei käytetty SQL-kyselykieltä.[9] Termi yleistyi vuonna 2009 Johan Oskarssonin järjestämässä tapaamisessa, jossa keskusteltiin ei-relaatiomallin mukaisista ohjelmistoista kuten Cassandra ja Voldemort.[9] NoSQL-tietokantoja ovat avain-arvo -tietokannat, sarakkeiset tietokannat, dokumentti-orientoituneet tietokannat ja graafitietokannat.[9]

NewSQL on tietokantaluokka, joka pyrkii yhdistämään ACID-ominaisuudet NoSQL-tietokantojen skaalautuvuuteen.[10]

Hajautettu tietokanta on tietokanta, joka ei ole kokonaisuudessaan tallennettu yhdessä paikassa vaan tietokoneverkon kautta toisiinsa liitetyillä tietokoneilla.[11]

Hierarkinen tietokanta

Hierarkinen malli

Varhaisin tietokantamalli on hierarkinen malli.[12] Hierarkinen malli johti verkkomallin kehitykseen.[12]

Hierarkisessa tietokannassa tieto järjestetään ylösalaisin käännettyyn puurakenteeseen.[12][13] Rakenteessa tiedoilla on isäntä-lapsi -suhde kuten hierarkisessa tiedostojärjestelmässä: isännällä voi olla useita lapsia mutta lapsella voi olla vain yksi isäntä.[12] Tämä eroaa relaatiotietokannasta, jossa rakenne voidaan vapaasti määrittää.[13]

Hierarkinen malli oli parannusta toisiinsa liittymättömien tiedostojen käsittelystä ja se esitti hyvin yksi-moneen -suhteita, mutta sillä oli ongelmia monta-moneen -suhteiden esittämisessä.[12] Uusien riippuvaisuussuhteiden lisääminen vaatii laajaa rakenteen muokkaamista, joka johtaa sovelluksien muuttamiseen myös.[12]

IBM:n Information Management System (IMS) perustui hierarkiseen malliin.

Hierarkiseen malliin perustuviin järjestelmiin kuuluvat DNS-nimipalvelu ja LDAP-hakemistopalvelut.

Verkkomallin tietokanta

Verkkomalli

Verkkomallin tietokanta suunniteltiin korjaamaan hierarkisen mallin ongelmia, etenkin sen joustamattomuuden.[14] Mallissa on ongelmia kuten vaikeampi toteutus ja ylläpito.[14] Verkkomalli johti relaatiomallin kehittämiseen, jota alkuun pidettiin epäkäytännöllisenä.[15]

Verkkomalli esittää tiedot tietuiden puurakenteena.[16] Riippuvuudet tietuiden välillä esitetään joukkoina, joilla on isäntä (omistaja verkkomallissa) ja lapsia (jäseniä verkkomallissa).[14][16] Tietueiden liitokset esitetään osoittimina eikä toistettuina sarakkeina kuten relaatiomallissa.[16]

Verkkomalli lisäsi mahdollisuuden useammalle omistajalle ja sitä myötä monta-moneen -suhteiden esityksen.[14]

Charles Bachmanin General Electricille kehittämä Integrated Data Store (IDS) perustui verkkomalliin ja vaikutti myös CODASYLin toimintaan.[17]

Relaatiotietokannat

Pääartikkeli: Relaatiomalli
Relaatiomalli

Relaatiotietokannat perustuvat predikaattilogiikkaan pohjautuvaan relaatiomalliin, jonka käsitteitä käyttäen tietokannan peruskäsitteet, kuten taulut, määritellään. Relaatiotietokannoissa (engl. relation, suom. suhde) taulujen välille luodaan yhteyksiä. Taulujen tiedot yhdistetään toisiinsa toisen taulun avaimella. Yleisimmin ID:llä. Toisessa taulussa yhteyden luovaa saraketta kutsutaan viiteavaimeksi tai vierasavaimeksi (engl. Foreign Key).

Taulujen välisiä suhteita kuvataan usein Äiti-lapsi -termillä. Termin mukaisesti äidillä voi olla useita lapsia, mutta lapsilla ei useita äitejä (suhde 1:n). Esimerkiksi viestillä voi olla vain yksi kirjoittaja (käyttäjä), mutta käyttäjällä useita kirjoituksia. Tällaisessa tapauksessa kirjoittaja/käyttäjä on tietokannallisesti viestin äiti ja kirjoitukset ovat kirjoittajan lapsia.

Yhdistettyjen taulujen tietojen käsittelyä hallitaan viite-eheyksillä. Viite-eheydet määrittävät mitä yhdistetyille tiedoille tapahtuu jos taulujen tiedot vaihtuvat tai ne poistetaan. Viite-eheyksillä voidaan siis määrittää esimerkiksi poistuvatko lapsitiedot jos äititieto poistetaan (Poistuvatko viestit jos niiden kirjoittaja poistetaan tietokannasta.).

Esimerkki yksinkertaisesta taulukkorakenteisesta tietokannasta.

ID Nimi Sukunimi Ikä
1 Pekka Pekkanen 45
2 Tieto Kantanen 23
3 Mauri Makkonen 68

Oliotietokannat

Esimerkki oliomallista.

Oliomalliin perustuvat tietokannat ilmeistyivät ensi kertaa 1980-luvulla CAD-sovelluksien tarpeisiin.[18] Toisin kuin relaatiomallissa, oliomalli ei linkitä rivejä ja sarakkeita. Oliomallin mukaisessa tietokannassa ei myöskään käytetä kiinteää skeemaa. Monimutkaisen tiedon hakeminen voi olla myös nopeampaa seuraamalla suoraan osoittimia.lähde?

Oliotietokantojen tuki kyselykielille kuten SQL on vähäisempää ja käyttö painottuu enemmän olio-ohjelmointikieliin.[18]

Tietokannan rakentaminen

Tietokannan rakentaminen perustuu siihen tallennettavan tiedon mallintamiseen. Tiedon mallintaminen perustuu sen ja sen kuvaaman todellisuuden analyysiin, jonka tuloksena saadaan joukko entiteettejä, niiden välisiä yhteyksiä ja niiden ominaisuuksia. Nämä esitetään yleensä jonkin kuvauskielen tai tekniikan avulla. Yksi yleinen kuvauskieli on UML. Seuraavassa vaiheessa malli kuvataan jonkin reaalisen tietokantatekniikan edellyttämässä muodossa. Yksi yleinen tietokantatekniikka on relaatiotietokanta, joka perustuu relaatiotietomalliin.

Tietomalli on siis malli tiedosta, ei todellisuudesta, jota se mallintaa vain epäsuorasti. BIM (Building Information Modelling, Rakennuksen tietomalli) on vastaavasti rakentamisen käytännön toteutus tietomallista, joka perustuu aina tietokantaan.

Tietokantojen rakentamisen lisäksi tietokoneohjelmien rakentamisen yhteydessä tehdään tietomalli niistä tiedoista, joita ohjelmalla käsitellään. Tietomallia voidaan tarvita myös esimerkiksi kommunikaatioprotokollien rakentamisessa. Tietokannat voivat nykyisin tallentaa myös binääridataa. Tällöin tietomallia suunniteltaessa arvioidaan, onko tietueisiin liittyviä dataobjekteja kuten kuvia järkevintä käsitellä erillisinä tiedostojärjestelmään tallennettuina tiedostoina vai tietokantaan tallennettuina binääritietueina (tietotyypit BLOB ja CLOB).

Jos ollaan rakentamassa relaatiotietokantaa, jota hallitaan SQL-kielen avulla, niin viime vaiheessa tietomallissa kuvatut entiteetit luodaan tietokantaan tauluina käyttäen SQL-kielen määrittelylauseita (käytännössä CREATE-lause). Yksinkertaisimmissa tietomalleissa entiteetin sisältämät tietueet ja tietotyypit voivat sellaisinaan vastata tietokannan taulurakennetta. Tietokantajärjestelmät mahdollistavat myös monimutkaisemman toimintalogiikan toteuttamisen jopa niin, että tietokantamoottori voi SQL-kielisten kyselyiden lisäksi ajaa yleisemmillä ohjelmointikielillä toteutettuja tallennettuja proseduureja. Tämä lähestymistapa on hyödyllinen erityisesti tilanteissa, joissa asiakaspäässä on käytössä rajalliset resurssit SQL-kyselyn palauttaman datan tulkitsemiseen jolloin tulkintaa ja muuta käyttötapaukseen liittyvää logiikkaa voidaan toteuttaa palvelinpäässä.

Tietokannan hallintajärjestelmä

Tietokannan hallintajärjestelmä on ohjelmisto (yksi tai useampia ohjelmia), jonka tehtävänä on hakea, tallentaa ja järjestää tietokoneella olevia tietoja.[19]

Hallintajärjestelmä on toteutettu varusohjelmistonalähde?, jonka tehtävänä on tukea varsinaista tietokantamoottoria (engl. database engine) mm. optimoimalla kyselyjä käyttäen hyväksi tallennettua hakutilastoa (engl. statistics) ja indeksejä. Tietokannan hallintajärjestelmät sisältävät myös ylläpitoa helpottavia apuohjelmia joiden avulla tietokantamoottorin säilyttämä tieto voidaan varmuuskopioida ja palauttaa sekä viedä ja tuoda muihin järjestelmiin. Varusohjelmat mahdollistavat tietokantojen klusteroinnin sekä toisintamisen kun haetaan korkeampaa käytettävyyttä ja saatavuutta. Hallintajärjestelmät sisältävät nykyisin myös rakenteisten dokumenttimuotojen tuen sekä teksti-indeksoinnin laajojen tietomäärien käsittelemiseksi. Hallintajärjestelmä helpottaa ylläpitäjän työtä myös tarjoamalla yhden käyttöliittymän jonka kautta tietokantamoottorien tilaa, ominaisuuksia ja parametrejä voidaan helposti hallita. Käytännössä kuitenkin tietokantojen ylläpitäjät yhä työskentelevät mieluummin komentorivipohjaisen konsolin kautta.

Relaatiotietokantojen hallintajärjestelmistä käytetään lyhennettä RDBMS ja oliotietokantojen hallintajärjestelmistä lyhennettä ODBMS tai OODBMS.

Katso myös: Tietokantasovellus

Tietokannat käytännössä

Tietokantoja käytetään monissa sovelluksissa liki jokaisella sovellusalueella. Tietokantaa suositellaan suurien monen käyttäjän järjestelmien tiedon tallennusmekanismiksi silloin kun tarvitaan koordinaatiota usean käyttäjän välillä. Jopa yksittäiselle käyttäjälle tietokanta voi olla sopiva ratkaisu, ja monet sähköpostiohjelmat ja kalenterisovellukset perustuvat standardinmukaiseen tietokantateknologiaan.

Transaktiot ja samanaikaisuus

Pääartikkeli: ACID

Lisänä useimmat käytännön tietokannat pyrkivät toteuttamaan transaktiomallin, jolla on halutut tiedon oikeellisuuden säilytysominaisuudet. Ihannetapauksessa tietokantaohjelmisto noudattaa ACID-sääntöjä:

  • Atomisuus (Atomicity) - kaikki tai ei mitään. Jokainen operaatio pitää suorittaa tai sitten mitään niistä ei suoriteta. (Transaktiot joita ei pystytä viemään loppuun täytyy peruuttaa kokonaisuudessaan.)
  • Johdonmukaisuus (Consistency) - jokaisen transaktion jäljiltä tietokannan tulee olla johdonmukaisessa tilassa.
  • Eristys (Isolation) - transaktiot eivät saa vaikuttaa toisiinsa ja keskeneräinen suoritus ei saa näkyä muille transaktioille.
  • Kestävyys (Durability) - onnistuneiden transaktioiden pitää säilyä mahdollisen kaatumisenkin jälkeen.

Käytännön toteutuksissa useimmat tietokantajärjestelmät joustavat joidenkin näiden sääntöjen noudattamisessa paremman suorituskyvyn saavuttaakseen.

Samanaikaisuuden hallinta on menetelmä, jolla varmistetaan että transaktiot ajetaan turvallisella tavalla ACID-sääntöjä noudattaen. Tietokantajärjestelmän pitää pystyä varmistamaan että vain sarjallistettavat, palautettavat operaatiot ovat sallittuja ja että mitään toimintoja toteutetuista transaktioista ei menetetä silloin kun palautetaan kanta tilaan ennen peruutettua transaktiota.

Transaktioille tyypillisesti toteutetaan transaktioloki (transaktiohistoria), jolla voidaan palauttaa tietokanta aiempaan tilaan (engl. rollback) ja myös seuraavaan tilaan (engl. rollforward), esimerkiksi palautuksen jälkeen. Tästä syystä lokissa on toteutuksesta riippuen oltava varsinainen muutos, sekä muutosta edeltävä tieto jotta palautus on mahdollista tehdä.

Kyselykielet

Tietokantojen hallintajärjestelmät tukevat erilaisia kyselykieliä, joita ovat:

Tietokannan oikeudellinen suoja

Tekijänoikeuslaissa erilaisille tietokannoille on myönnetty määräaikainen oikeussuoja. Lain tietokanta-käsite on toinen kuin tekniikan: lain suoja tietokannalle kattaa lähinnä tietokannan sisältämän informaation eikä niinkään esimerkiksi taulurakennetta. Suojatun tietokannan ei tarvitse olla edes sähköinen vaan se voi olla esimerkiksi kortisto. Oikeudellisen suojan edellytyksenä on merkittävä panostus tietokannan luomiseen tai järjestämiseen.

Tietokantaan liittyviä käsitteitä

Lähteet

  1. Database Encyclopaedia Britannica. Viitattu 20.10.2019. (englanniksi)
  2. Rantala Risto, päätoimittaja, Itkonen Mikko, Suramo Ari ; grafiikka: Vakkila, Juha.: Otavan tietosanakirja. Artikkeli: tietokanta.. Helsinki: Otava, 1997. ISBN 9511151398.
  3. CD-Facta 2005 : suomenkielinen tietosanakirja. Artikkeli: tietokanta. Helsinki: WSOY, 2004. ISBN 951-0-29149-8.
  4. tietokanta Kielitoimiston sanakirja. Kotimaisten kielten keskus.
  5. The CODASYL Network Model remote-dba.net. Viitattu 20.10.2019. (englanniksi)
  6. doi:10.1145/355611.362534
  7. E F Codd: A Relational Model of Data for Large Shared Data Banks (PDF) kesäkuu 1970. Communications of the ACM. Viitattu 22.7.2019. (englanniksi)
  8. Edgar F. ("Ted") Codd ACM. Viitattu 22.7.2019. (englanniksi)
  9. a b c Mark Drake: A Comparison of NoSQL Database Management Systems and Models digitalocean.com. Arkistoitu . Viitattu 20.10.2019. (englanniksi)
  10. NewSQL….the new era of Relational Databases? agilelab.it. Viitattu 20.10.2019. (englanniksi)
  11. https://www.its.bldrdoc.gov/fs-1037/dir-012/_1750.htm
  12. a b c d e f Understanding the Hierarchical Database Model mariadb.com. Viitattu 20.10.2019. (englanniksi) 
  13. a b Hierarchical Model (PDF) db-book.com. Viitattu 30.6.2019. (englanniksi)
  14. a b c d Understanding the Network Database Model mariadb.com. Viitattu 20.10.2019. (englanniksi)
  15. Understanding the Relational Database Model mariadb.com. Viitattu 20.10.2019. (englanniksi)
  16. a b c Network Database Model Vs. Relational Model raima.com. Viitattu 20.10.2019. (englanniksi)
  17. Charles William Bachman amturing.acm.org. (englanniksi)
  18. a b Thelin, Roy: RDBMS versus ODBMS nomad-ret.net. Viitattu 21.8.2017.
  19. Keith D. Foote: A Brief History of Database Management dataversity.net. 23.3.2017. Viitattu 20.10.2019. (englanniksi)