Data Warehouse -arkkitehtuuri, käsitteet ja komponentit

Sisällysluettelo:

Anonim

Data Warehouse -konseptit

Tietovaraston perusajatuksena on helpottaa yrityksen yhden version totuudesta päätöksentekoa ja ennustamista varten. Tietovarasto on tietojärjestelmä, joka sisältää historiallisia ja kommutatiivisia tietoja yhdestä tai useammasta lähteestä. Data Warehouse -konseptit yksinkertaistavat organisaatioiden raportointi- ja analysointiprosessia.

Tietovaraston ominaisuudet

Data Warehouse -konsepteilla on seuraavat ominaisuudet:

  • Aihekohtainen
  • Integroitu
  • Aikavaihtoehto
  • Haihtumaton

Aihekohtainen

Tietovarasto on aihekohtainen, koska se tarjoaa tietoa teemasta yritysten jatkuvien toimintojen sijaan. Nämä aiheet voivat olla myynti, markkinointi, jakelu jne.

Tietovarasto ei koskaan keskity käynnissä oleviin toimintoihin. Sen sijaan siinä korostettiin tietojen mallintamista ja analysointia päätöksentekoa varten . Se tarjoaa myös yksinkertaisen ja ytimekkään kuvan tietystä aiheesta, sulkemalla pois tiedot, joista ei ole apua päätöksentekoprosessissa.

Integroitu

Data Warehousessa integraatio tarkoittaa yhteisen mittayksikön perustamista kaikille samanlaisille tiedoille erilaisesta tietokannasta. Tiedot on myös tallennettava tietovarastoon yhteisellä ja yleisesti hyväksyttävällä tavalla.

Tietovarasto kehitetään integroimalla tietoja erilaisista lähteistä, kuten keskusyksikkö, relaatiotietokannat, tasaiset tiedostot jne. Lisäksi sen on pidettävä yhdenmukaisia ​​nimeämiskäytäntöjä, muotoa ja koodausta.

Tämä integraatio auttaa tietojen analysoinnissa tehokkaasti. Johdonmukaisuus nimityskäytännöissä, attribuuttimittauksissa, koodausrakenteessa jne. On varmistettava. Harkitse seuraavaa esimerkkiä:

Yllä olevassa esimerkissä on kolme erilaista sovellusta, jotka on merkitty A, B ja C. Näihin sovelluksiin tallennetut tiedot ovat Sukupuoli, Päivämäärä ja Tasapaino. Jokaisen sovelluksen tiedot tallennetaan kuitenkin eri tavalla.

  • Sovelluksessa sukupuolikenttä tallentaa loogiset arvot, kuten M tai F
  • Sovelluksessa B sukupuolikenttä on numeerinen arvo,
  • Application C -sovelluksessa sukupuolikenttä tallennetaan merkkiarvon muodossa.
  • Sama pätee päivämäärään ja saldoon

Muuntamisen ja puhdistamisen jälkeen kaikki nämä tiedot tallennetaan kuitenkin tietovarastoon yhteisessä muodossa.

Aikavaihtoehto

Tietovaraston aikahorisontti on melko laaja verrattuna käyttöjärjestelmiin. Tietovarastossa kerätyt tiedot tunnistetaan tietyllä ajanjaksolla ja tarjoavat tietoja historiallisesta näkökulmasta. Se sisältää nimenomaisesti tai epäsuorasti osan ajasta.

Yksi tällainen paikka, jossa Datawarehouse-datan näyttöaikavarianssi on tietueavaimen rakenteessa. Jokaisella DW: n sisältämällä ensisijaisella avaimella tulisi olla joko epäsuorasti tai nimenomaisesti ajanosa. Kuten päivä, viikko kuukausi jne.

Toinen ajanvarianssin näkökohta on, että kun data lisätään varastoon, sitä ei voi päivittää tai muuttaa.

Haihtumaton

Tietovarasto on myös haihtumaton, eli edellisiä tietoja ei poisteta, kun niihin lisätään uusia tietoja.

Tiedot ovat vain luku -tilassa ja päivitetään säännöllisesti. Tämä auttaa myös analysoimaan historiallisia tietoja ja ymmärtämään mitä ja milloin tapahtui. Se ei vaadi tapahtumaprosessia, palautusta ja samanaikaisuuden valvontamekanismeja.

Toiminnalliset sovellusympäristössä suoritetut toiminnot, kuten poisto, päivitys ja lisääminen, jätetään pois tietovarastoympäristöstä. Ainoastaan ​​kahden tyyppisiä datatoimintoja suoritetaan tietovarastossa

  1. Tietojen lataus
  2. Tietojen käyttö

Tässä on joitain suuria eroja sovelluksen ja tietovaraston välillä

Operatiivinen sovellus Tietovarasto
Monimutkainen ohjelma on koodattava sen varmistamiseksi, että tietojen päivitysprosessit ylläpitävät lopputuotteen korkeaa eheyttä. Tällaisia ​​ongelmia ei tapahdu, koska tietojen päivitystä ei suoriteta.
Tiedot sijoitetaan normalisoituun muotoon vähäisen redundanssin varmistamiseksi. Tietoja ei tallenneta normalisoidussa muodossa.
Transaktioiden, tietojen palauttamisen, palauttamisen ja ratkaisemisen tukemiseen tarvittava tekniikka, koska sen umpikuja on melko monimutkainen. Se tarjoaa suhteellisen yksinkertaisuuden tekniikassa.

Data Warehouse -arkkitehtuuri

Data Warehouse -arkkitehtuuri on monimutkainen, koska se on tietojärjestelmä, joka sisältää historiallisia ja kommutatiivisia tietoja useista lähteistä. Data Warehouse -kerrosten rakentamiseen on 3 lähestymistapaa: yksitasoinen, kaksitasoinen ja kolmitasoinen. Tämä Data Warehousen 3-tasoinen arkkitehtuuri selitetään alla.

Yksitasoinen arkkitehtuuri

Yhden kerroksen tavoitteena on minimoida tallennettujen tietojen määrä. Tavoitteena on poistaa tietojen redundanssi. Tätä arkkitehtuuria ei käytetä usein käytännössä.

Kaksitasoinen arkkitehtuuri

Kaksikerroksinen arkkitehtuuri on yksi Data Warehouse -kerroksista, joka erottaa fyysisesti käytettävissä olevat lähteet ja tietovaraston. Tätä arkkitehtuuria ei voida laajentaa, eikä se myöskään tue suurta määrää loppukäyttäjiä. Sillä on myös yhteysongelmia verkon rajoitusten takia.

Kolmitasoinen tietovarastoarkkitehtuuri

Tämä on eniten käytetty tietovaraston arkkitehtuuri.

Se koostuu ylemmästä, keskimmäisestä ja alemmasta tasosta.

  1. Bottom Tier: Datawarehouse-palvelinten tietokanta alimpana tasona. Se on yleensä relaatiotietokantajärjestelmä. Tiedot puhdistetaan, muunnetaan ja ladataan tähän kerrokseen taustatyökalujen avulla.
  2. Keskitaso: Tietovaraston keskitaso on OLAP-palvelin, joka toteutetaan joko ROLAP- tai MOLAP-mallilla. Käyttäjälle tämä sovellustaso esittää abstraktin näkymän tietokannasta. Tämä kerros toimii myös välittäjänä loppukäyttäjän ja tietokannan välillä.
  3. Yläkerta: Ylempi taso on käyttöliittymän asiakaskerros. Huipputaso on työkalut ja API, jotka yhdistät ja saat tietoja ulos tietovarastosta. Se voi olla kyselytyökalut, raportointityökalut, hallitut kyselytyökalut, analyysityökalut ja tiedonlouhintatyökalut.

Tietovaraston komponentit

Opimme Data Warehouse -komponenteista ja Data Warehouse -arkkitehtuurista kaavion avulla alla esitetyllä tavalla:

Data Warehouse -arkkitehtuuri

Data Warehouse perustuu RDBMS-palvelimeen, joka on keskeinen tietovarasto, jota ympäröivät tietyt keskeiset tietovarastointikomponentit, jotta koko ympäristö olisi toimiva, hallittavissa ja käytettävissä.

Data Warehouse -komponentteja on pääasiassa viisi:

Data Warehouse -tietokanta

Keskitetty tietokanta on tietovarastoympäristön perusta. Tämä tietokanta on toteutettu RDBMS-tekniikalla. Vaikka tällaista toteutusta rajoittaa se tosiasia, että perinteinen RDBMS-järjestelmä on optimoitu transaktiotietokantojen käsittelyyn eikä tietovarastointiin. Esimerkiksi ad-hoc-kysely, monitaulukkoiset liittymät, aggregaatit ovat resursseja kuluttavia ja hidastavat suorituskykyä.

Siksi käytetään vaihtoehtoisia lähestymistapoja tietokantaan seuraavasti:

  • Tietovarastossa relaatiotietokannat otetaan käyttöön rinnakkain skaalautuvuuden mahdollistamiseksi. Rinnakkaiset relaatiotietokannat sallivat myös jaetun muistin tai jaetun mikään -mallin erilaisissa moniprosessorikokoonpanoissa tai massiivisesti rinnakkaisissa prosessoreissa.
  • Uusia hakemistorakenteita käytetään ohittamaan relaatiotaulukon skannaus ja parantamaan nopeutta.
  • Monidimensionaalisen tietokannan (MDDB) käyttö relaatiotietovarastomallien vuoksi asetettujen rajoitusten poistamiseksi. Esimerkki: Essbase Oraclesta.

Hankinta-, hankinta-, siivous- ja muutostyökalut (ETL)

Tiedonhankinta-, muunnos- ja siirtotyökaluja käytetään kaikkien muunnosten, yhteenvetojen ja kaikkien muutosten tekemiseen, joita tarvitaan tietojen muuttamiseksi yhtenäiseksi muodoksi tietovarastossa. Niitä kutsutaan myös pura, muunna ja lataa (ETL) -työkaluiksi.

Niiden toiminnallisuuteen kuuluu:

  • Anonymisoi tiedot lakisääteisten määräysten mukaisesti.
  • Poistetaan ei-toivottuja tietoja operatiivisissa tietokannoissa latautumisesta tietovarastoon.
  • Etsi ja korvaa yleisiä nimiä ja määritelmiä eri lähteistä tuleville tiedoille.
  • Yhteenvetojen ja johdettujen tietojen laskeminen
  • Jos tietoja puuttuu, täytä ne oletusarvoilla.
  • Poista päällekkäinen toistuva data, joka saapuu useista tietolähteistä.

Nämä Pura-, Muunna ja Lataa -työkalut voivat luoda Cron-töitä, taustatöitä, Cobol-ohjelmia, shell-komentosarjoja jne., Jotka päivittävät säännöllisesti datavaraston tietoja. Nämä työkalut ovat hyödyllisiä myös metatietojen ylläpidossa.

Näiden ETL-työkalujen on käsiteltävä tietokannan ja tietojen heterogeenisyyden haasteita.

Metatiedot

Nimi Meta Data ehdottaa joitain korkean tason teknisiä Data Warehousing -konsepteja. Se on kuitenkin melko yksinkertainen. Metatiedot ovat tietoja tiedoista, jotka määrittelevät tietovaraston. Sitä käytetään tietovaraston rakentamiseen, ylläpitoon ja hallintaan.

Data Warehouse -arkkitehtuurissa metadatalla on tärkeä rooli, kun se määrittää tietovarastotietojen lähteen, käytön, arvot ja ominaisuudet. Se määrittelee myös, miten tietoja voidaan muuttaa ja käsitellä. Se on tiiviisti yhteydessä tietovarastoon.

Esimerkiksi myyntitietokannan rivi voi sisältää:

4030 KJ732 299.90

Tämä on merkityksetöntä tietoa, kunnes kuulemme metaa, joka kertoo meille, että se oli

  • Mallinumero: 4030
  • Myyntiedustajan tunnus: KJ732
  • Myynnin kokonaissumma on 299,90 dollaria

Siksi metadata on välttämätön aineosa tiedon muuntamisessa tiedoksi.

Metatiedot auttavat vastaamaan seuraaviin kysymyksiin

  • Mitä taulukoita, määritteitä ja avaimia Data Warehouse sisältää?
  • Mistä tiedot ovat peräisin?
  • Kuinka monta kertaa tiedot ladataan uudelleen?
  • Mitä muutoksia tapahtui puhdistuksen yhteydessä?

Metatiedot voidaan luokitella seuraaviin luokkiin:

  1. Tekniset metatiedot : Tällaiset metatiedot sisältävät tietoja varastosta, jota tietovaraston suunnittelijat ja järjestelmänvalvojat käyttävät.
  2. Liiketoiminnan metadata : Tämäntyyppiset metatiedot sisältävät yksityiskohtia, jotka antavat loppukäyttäjille helpon käsityksen tietovarastoon tallennetuista tiedoista.

Kyselytyökalut

Yksi tietovarastoinnin ensisijaisista kohteista on antaa tietoa yrityksille strategisten päätösten tekemiseksi. Kyselytyökalujen avulla käyttäjät voivat olla vuorovaikutuksessa tietovarastojärjestelmän kanssa.

Nämä työkalut jaetaan neljään eri luokkaan:

  1. Kysely- ja raportointityökalut
  2. Sovelluskehitystyökalut
  3. Tiedonlouhintatyökalut
  4. OLAP-työkalut

1. Kysely- ja raportointityökalut:

Kysely- ja raportointityökalut voidaan jakaa edelleen

  • Raportointityökalut
  • Hallinnoidut kyselytyökalut

Raportointityökalut:

Raportointityökalut voidaan edelleen jakaa tuotantoraportointityökaluihin ja työpöydän raporttien kirjoittajiin.

  1. Raportin kirjoittajat: Tämäntyyppinen raportointityökalu on loppukäyttäjille suunniteltu analyysityökalu.
  2. Tuotantoraportointi: Tämän tyyppisten työkalujen avulla organisaatiot voivat luoda säännöllisiä operatiivisia raportteja. Se tukee myös suuren määrän erätöitä, kuten tulostusta ja laskemista. Joitakin suosittuja raportointityökaluja ovat Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Hallinnoidut kyselytyökalut:

Tämäntyyppiset käyttötyökalut auttavat loppukäyttäjiä ratkaisemaan epäkohtia tietokannassa ja SQL: ssä sekä tietokantarakenteessa lisäämällä metakerroksen käyttäjien ja tietokannan väliin.

2. Sovelluskehitystyökalut:

Joskus sisäänrakennetut graafiset ja analyyttiset työkalut eivät tyydytä organisaation analyyttisiä tarpeita. Tällaisissa tapauksissa räätälöidyt raportit kehitetään käyttämällä sovelluskehitystyökaluja.

3. Tiedonlouhintatyökalut:

Tiedon louhinta on prosessi, jolla löydetään mielekäs uusi korrelaatio, patteenit ja trendit kaivamalla suuria määriä tietoa. Datan louhintatyökaluja käytetään tekemään prosessi automaattiseksi.

4. OLAP-työkalut:

Nämä työkalut perustuvat moniulotteisen tietokannan käsitteisiin. Sen avulla käyttäjät voivat analysoida tietoja käyttämällä monimutkaisia ​​ja monimutkaisia ​​moniulotteisia näkymiä.

Tietovaraston väyläarkkitehtuuri

Tietovarastoväylä määrittää varaston tietovirran. Tietovaraston tietovirta voidaan luokitella sisäänvirtaukseksi, ylösvirtaukseksi, alasvirtaukseksi, ulosvirtaukseksi ja metavirraksi.

Tietoväylää suunniteltaessa on otettava huomioon yhteiset ulottuvuudet, tosiasiat kaikilla tietomäärillä.

Data Marts

Data mart on pääsykerros, jota käytetään tietojen saamiseksi käyttäjille. Se esitetään vaihtoehtona suurikokoiselle tietovarastolle, koska sen rakentaminen vie vähemmän aikaa ja rahaa. Ei kuitenkaan ole olemassa vakiomääritelmää datasta, joka eroaa henkilöstä toiseen.

Yksinkertaisella sanalla Data mart on tietovaraston tytäryhtiö. Data-ryhmää käytetään tietojen osioimiseksi, joka on luotu tietylle käyttäjäryhmälle.

Datamartit voidaan luoda samaan tietokantaan kuin Datawarehouse tai fyysisesti erillinen tietokanta.

Tietovaraston arkkitehtuurin parhaat käytännöt

Suunnittellessasi Data Warehouse -arkkitehtuuria sinun on noudatettava alla annettuja parhaita käytäntöjä:

  • Käytä Data Warehouse -malleja, jotka on optimoitu tiedonhakuun, joka voi olla ulottuvuustila, denormalisoitu tai hybridi-lähestymistapa.
  • Valitse sopiva suunnittelutapa ylhäältä alas ja alhaalta ylöspäin -lähestymistavaksi Data Warehousessa
  • On varmistettava, että tietoja käsitellään nopeasti ja tarkasti. Samanaikaisesti sinun tulisi käyttää lähestymistapaa, joka yhdistää tiedot yhdeksi totuuden versioksi.
  • Suunnittele tietovaraston tietojen hankinta- ja puhdistusprosessi huolellisesti.
  • Suunnittele MetaData-arkkitehtuuri, joka sallii metadatan jakamisen Data Warehouse -komponenttien välillä
  • Harkitse ODS-mallin käyttöönottoa, kun tiedonhakutarve on lähellä tiedonkeruupyramidin alaosaa tai kun on käytettävä useita toimintalähteitä.
  • On varmistettava, että tietomalli on integroitu eikä vain yhdistetty. Siinä tapauksessa sinun tulisi harkita 3NF-tietomallia. Se on myös ihanteellinen ETL- ja datanpuhdistustyökalujen hankkimiseen

Yhteenveto:

  • Tietovarasto on tietojärjestelmä, joka sisältää historiallisia ja kommutatiivisia tietoja yhdestä tai useammasta lähteestä. Nämä lähteet voivat olla perinteinen tietovarasto, pilvitietovarasto tai virtuaalinen tietovarasto.
  • Tietovarasto on aihekeskeinen, koska se tarjoaa tietoa aiheesta organisaation käynnissä olevien toimintojen sijaan.
  • Data Warehousessa integraatio tarkoittaa yhteisen mittayksikön perustamista kaikille samanlaisille tiedoille eri tietokannoista
  • Tietovarasto on myös haihtumaton, eli edellisiä tietoja ei poisteta, kun niihin lisätään uusia tietoja.
  • Data Warehouse on Time-variantti, koska DW: n tiedoilla on pitkä säilyvyys.
  • Data Warehouse -arkkitehtuurissa on pääasiassa 5 komponenttia: 1) Tietokanta 2) ETL-työkalut 3) Sisällönkuvaustiedot 4) Kyselytyökalut 5) DataMarts
  • Nämä ovat neljä kyselytyökalujen pääryhmää 1. Kysely ja raportointi, työkalut 2. Sovelluskehitystyökalut, 3. Tiedonlouhintatyökalut 4. OLAP-työkalut
  • Tiedonhankinta-, muunnos- ja siirtotyökaluja käytetään kaikkien muunnosten ja yhteenvetojen suorittamiseen.
  • Data Warehouse -arkkitehtuurissa metadatalla on tärkeä rooli, kun se määrittää tietovarastotietojen lähteen, käytön, arvot ja ominaisuudet.