Mikä on ETL?
ETL on prosessi, joka poimii tiedot eri lähdekoodijärjestelmistä, muuntaa sitten tiedot (kuten laskutoimitukset, ketjutukset jne.) Ja lopuksi lataa tiedot Data Warehouse -järjestelmään. ETL: n koko muoto on Pura, Muunna ja Lataa.
On houkuttelevaa ajatella, että tietovaraston luominen on yksinkertaisesti tietojen kerääminen useista lähteistä ja lataaminen tietovaraston tietokantaan. Tämä on kaukana totuudesta ja vaatii monimutkaista ETL-prosessia. ETL-prosessi vaatii aktiivista panostusta eri sidosryhmiltä, mukaan lukien kehittäjät, analyytikot, testaajat, ylimmän johdon edustajat, ja se on teknisesti haastava.
Tietovarastojärjestelmän on muututtava liiketoiminnan muutosten myötä, jotta arvo säilyttäisi päätöksentekijän työkaluna. ETL on toistuva toiminta (päivittäin, viikoittain, kuukausittain) tietovarastojärjestelmässä, ja sen on oltava ketterä, automatisoitu ja hyvin dokumentoitu.
Tässä ETL-opetusohjelmassa opit-
- Mikä on ETL?
- Miksi tarvitset ETL: ää?
- ETL-prosessi tietovarastoissa
- Vaihe 1) Uuttaminen
- Vaihe 2) Muunnos
- Vaihe 3) Ladataan
- ETL-työkalut
- Parhaat käytännöt ETL-prosessi
Miksi tarvitset ETL: ää?
ETL: n käyttöönotolle organisaatiossa on monia syitä:
- Se auttaa yrityksiä analysoimaan yritystietonsa kriittisten liiketoimintapäätösten tekemiseksi.
- Transaktiotietokannat eivät pysty vastaamaan monimutkaisiin yrityskysymyksiin, joihin voidaan vastata ETL-esimerkillä.
- Data Warehouse tarjoaa yhteisen tietovaraston
- ETL tarjoaa menetelmän tietojen siirtämiseksi eri lähteistä tietovarastoon.
- Kun tietolähteet muuttuvat, tietovarasto päivittyy automaattisesti.
- Hyvin suunniteltu ja dokumentoitu ETL-järjestelmä on melkein välttämätön Data Warehouse -projektin onnistumiselle.
- Salli tietojen muunnos-, yhdistämis- ja laskutussääntöjen todentaminen.
- ETL-prosessi mahdollistaa näytetietojen vertailun lähteen ja kohdejärjestelmän välillä.
- ETL-prosessi voi suorittaa monimutkaisia muunnoksia ja vaatii ylimääräisen alueen tietojen tallentamiseen.
- ETL auttaa siirtämään tietoja tietovarastoon. Muunna eri muodoiksi ja tyypeiksi yhden yhtenäisen järjestelmän noudattamiseksi.
- ETL on ennalta määritelty prosessi lähdetietojen käyttämiseen ja käsittelyyn kohdetietokantaan.
- Tietovaraston ETL tarjoaa syvän historiallisen kontekstin yritykselle.
- Se auttaa parantamaan tuottavuutta, koska se koodaa ja käyttää uudelleen ilman teknisiä taitoja.
ETL-prosessi tietovarastoissa
ETL on 3-vaiheinen prosessi

Vaihe 1) Uuttaminen
Tässä ETL-arkkitehtuurin vaiheessa data puretaan lähdekoodijärjestelmästä lavastusalueelle. Mahdolliset muunnokset tehdään lavastusalueella, jotta lähdejärjestelmän suorituskyky ei heikkene. Jos vioittuneet tiedot kopioidaan suoraan lähteestä tietovarastotietokantaan, palautus on haaste. Vaihealue antaa mahdollisuuden tarkistaa poimitut tiedot ennen niiden siirtymistä tietovarastoon.
Tietovaraston on integroitava eri järjestelmiä
DBMS, laitteisto, käyttöjärjestelmät ja tiedonsiirtoprotokollat. Lähteitä voivat olla vanhat sovellukset, kuten keskusyksiköt, räätälöidyt sovellukset, yhteyspisteiden laitteet, kuten pankkiautomaatti, puhelukytkimet, tekstitiedostot, laskentataulukot, toiminnanohjausohjelma, toimittajien tiedot, muun muassa.
Siksi tarvitaan loogista datakarttaa, ennen kuin tiedot puretaan ja ladataan fyysisesti. Tämä tietokartta kuvaa lähteiden ja kohdedatan välistä suhdetta.
Kolme tiedonpoistomenetelmää:
- Täysi uuttaminen
- Osittainen purkaminen - ilman päivitysilmoitusta.
- Osittainen purkaminen - päivitysilmoituksella
Käytetystä menetelmästä riippumatta uuttaminen ei saisi vaikuttaa lähdejärjestelmien suorituskykyyn ja vasteaikaan. Nämä lähdejärjestelmät ovat eläviä tuotantotietokantoja. Mikä tahansa hidastuminen tai lukitseminen voi vaikuttaa yrityksen tulokseen.
Jotkut tarkistukset tehdään purkamisen aikana:
- Yhdistä tietueet lähdetietoihin
- Varmista, ettei roskapostia / ei-toivottuja tietoja ole ladattu
- Tietotyypin tarkistus
- Poista kaikenlaiset päällekkäiset / pirstoutuneet tiedot
- Tarkista, ovatko kaikki avaimet paikoillaan
Vaihe 2) Muunnos
Lähdepalvelimelta poimittu data on raakaa eikä sitä voida käyttää alkuperäisessä muodossaan. Siksi se on puhdistettava, kartoitettava ja muutettava. Itse asiassa tämä on avainvaihe, jossa ETL-prosessi lisää arvoa ja muuttaa tietoja siten, että oivaltavat BI-raportit voidaan luoda.
Se on yksi tärkeistä ETL-käsitteistä, jossa sovelletaan joukko toimintoja purettuun dataan. Tietoja, jotka eivät vaadi muuntamista, kutsutaan suoriksi siirto- tai tiedonsiirtoaineistoiksi .
Muunnosvaiheessa voit suorittaa räätälöityjä toimintoja tiedoille. Esimerkiksi, jos käyttäjä haluaa myyntisumman, joka ei ole tietokannassa. Tai jos taulukon etu- ja sukunimi ovat eri sarakkeissa. Ne on mahdollista yhdistää ennen lataamista.

Seuraavassa on tietojen eheysongelmia:
- Sama henkilö, kuten Jon, John, jne.
- Yrityksen nimeä on useita tapoja, kuten Google, Google Inc.
- Eri nimien, kuten Cleaveland, Cleveland, käyttö.
- Saattaa olla tapaus, jossa eri sovellukset luovat eri tilinumeroita samalle asiakkaalle.
- Joissakin tiedoissa vaaditut tiedostot ovat tyhjiä
- Virheellinen tuote, joka on kerätty myyntipisteessä manuaalisena syötteenä, voi johtaa virheisiin.
Vahvistukset tehdään tämän vaiheen aikana
- Suodatus - Valitse vain tietyt ladattavat sarakkeet
- Sääntöjen ja hakutaulukkojen käyttäminen tietojen standardointiin
- Merkistöjoukon muunnos ja koodauksen käsittely
- Mittayksiköiden, kuten päivämäärän ja kellon muunto, valuuttamuunnokset, numeeriset muunnokset, muuntaminen
- Tietojen kynnysarvojen tarkistus. Esimerkiksi ikä voi olla enintään kaksi numeroa.
- Tietovirran validointi vaiheistusalueelta välitaulukoihin.
- Pakollisia kenttiä ei saa jättää tyhjiksi.
- Puhdistus (esimerkiksi NULL: n kartoittaminen 0: een tai sukupuolen uroksen "M": ksi ja naaras "F": ksi jne.)
- Jaa sarake kerrannaisiksi ja yhdistä useita sarakkeita yhdeksi sarakkeeksi.
- Rivejä ja sarakkeita siirretään,
- Yhdistä tiedot hakujen avulla
- Minkä tahansa monimutkaisen tietojen tarkistuksen käyttäminen (esim. Jos rivin kaksi ensimmäistä saraketta ovat tyhjät, se hylkää rivin automaattisesti käsittelystä)
Vaihe 3) Ladataan
Tietojen lataaminen kohdetietokantatietokantaan on ETL-prosessin viimeinen vaihe. Tyypillisessä tietovarastossa on ladattava valtava määrä tietoa suhteellisen lyhyessä ajassa (yötä). Siksi latausprosessi tulisi optimoida suorituskyvyn mukaan.
Jos lataus epäonnistuu, palautusmekanismit tulisi konfiguroida käynnistymään uudelleen vikatilanteesta ilman tietojen eheyden menetystä. Data Warehouse -järjestelmänvalvojien on seurattava, jatkettava ja peruutettava latauksia palvelimen vallitsevan suorituskyvyn mukaan.
Lataustyypit:
- Alkuperäinen lataus - kaikkien Data Warehouse -taulukoiden täyttäminen
- Lisäkuorma - käynnissä olevien muutosten soveltaminen tarvittaessa säännöllisin väliajoin.
- Täysi päivitys - yhden tai useamman taulukon sisällön uudelleenasettaminen ja lataaminen uudella datalla.
Lataa vahvistus
- Varmista, että avainkentän tiedot eivät ole puuttuvia eivätkä tyhjiä.
- Testaa mallinnusnäkymät kohdetaulukoiden perusteella.
- Tarkista, että yhdistetyt arvot ja lasketut mitat.
- Datatarkistukset mittataulukossa sekä historiataulukossa.
- Tarkista ladatun tosiasia- ja mittataulukon BI-raportit.
ETL-työkalut
Markkinoilla on monia tietovarastointityökaluja. Tässä on joitain merkittävimpiä:
1. MarkLogic:
MarkLogic on tietovarastoratkaisu, joka helpottaa ja nopeuttaa tietojen integrointia käyttämällä joukkoa yrityksen ominaisuuksia. Se voi kysellä erityyppisiä tietoja, kuten asiakirjoja, suhteita ja metatietoja.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle on alan johtava tietokanta. Se tarjoaa laajan valikoiman Data Warehouse -ratkaisuja sekä paikan päällä että pilvessä. Se auttaa optimoimaan asiakaskokemuksia lisäämällä toiminnan tehokkuutta.
https://www.oracle.com/index.html
3. Amazon RedShift:
Amazon Redshift on Datawarehouse-työkalu. Se on yksinkertainen ja kustannustehokas työkalu analysoida kaikentyyppisiä tietoja käyttämällä standardi SQL: ää ja olemassa olevia BI-työkaluja. Se mahdollistaa myös monimutkaisten kyselyjen suorittamisen petatavuilta strukturoitua tietoa.
https://aws.amazon.com/redshift/?nc2=h_m1
Tässä on täydellinen luettelo hyödyllisistä tietovaraston työkaluista.
Parhaat käytännöt ETL-prosessi
Seuraavat ovat parhaat käytännöt ETL-prosessivaiheille:
Älä koskaan yritä puhdistaa kaikkia tietoja:
Jokainen organisaatio haluaa, että kaikki tiedot ovat puhtaita, mutta useimmat niistä eivät ole valmiita maksamaan odottamaan tai eivät ole valmiita odottamaan. Kaikkien puhdistaminen vie vain liian kauan, joten on parempi olla yrittämättä puhdistaa kaikkia tietoja.
Älä koskaan puhdista mitään:
Suunnittele aina jotain puhdistamista, koska suurin syy tietovaraston rakentamiseen on tarjota puhtaampaa ja luotettavampaa tietoa.
Määritä tietojen puhdistuskustannukset:
Ennen kuin puhdistat kaikki likaiset tiedot, sinun on määritettävä jokaisen likaisen tietoelementin puhdistuskustannukset.
Nopeuta kyselyjen käsittelyä käyttämällä apunäkymiä ja hakemistoja:
Tallennuskustannusten vähentämiseksi tallenna yhteenvetotiedot levykkeille. Lisäksi tarvitaan kompromissi tallennettavan datan määrän ja sen yksityiskohtaisen käytön välillä. Kompromissi tietojen tarkkuustasolla varastointikustannusten pienentämiseksi.
Yhteenveto:
- ETL tarkoittaa pura, muuntaa ja ladata.
- ETL tarjoaa menetelmän tietojen siirtämiseksi eri lähteistä tietovarastoon.
- Ensimmäisessä vaiheessa uuttamalla tiedot puretaan lähdekoodijärjestelmästä lavastusalueelle.
- Muunnosvaiheessa lähteestä otetut tiedot puhdistetaan ja muunnetaan.
- Tietojen lataaminen kohdetietovarastoon on ETL-prosessin viimeinen vaihe.