Mikä on tietojen täsmäytys?
Tietojen täsmäytys (DR) määritellään prosessina, jolla tiedot tarkistetaan tietojen siirron aikana. Tässä prosessissa kohdetietoja verrataan lähdetietoihin sen varmistamiseksi, että siirtoarkkitehtuuri siirtää tietoja. Tietojen validointi ja täsmäytys (DVR) tarkoittaa tekniikkaa, joka käyttää matemaattisia malleja tietojen käsittelyyn.
Tässä opetusohjelmassa opit,
- Mikä on tietojen täsmäytys?
- Miksi tietojen täsmäytys on tärkeää?
- Tietojen täsmäytykseen liittyvä terminologia
- Tietojen täsmäytyksen historia
- Tietojen täsmäytysprosessi
- Tietojen täsmäytyksen käytön parhaat käytännöt
- Tietojen täsmäytystyökalut
Miksi tietojen täsmäytys on tärkeää?
Tiedonsiirtoprosessissa on mahdollista tehdä virheitä kartoitus- ja muunnelogiikassa. Ajonaikaiset virheet, kuten verkon keskeytykset tai rikkinäiset tapahtumat, voivat vahingoittaa tietoja.
Tällaiset virheet voivat johtaa tietojen jättämiseen virheelliseen tilaan. Nämä voivat luoda joukon asioita, kuten:
- Puuttuvat tietueet
- Puuttuvat arvot
- Virheelliset arvot
- Päällekkäiset tietueet
- Huonosti muotoillut arvot
- Katkenneet suhteet taulukoiden tai järjestelmien välillä
Tässä on tärkeitä syitä tietojen täsmäytysprosessin käyttämiseen:
- Tietojen täsmäytyksen avulla voit saada tarkkoja ja luotettavia tietoja teollisuuden prosessin tilasta raakamittaustiedoista.
- Se auttaa myös tuottamaan yhden yhtenäisen tietojoukon, joka edustaa todennäköisintä prosessitoimintaa.
- Se johtaa myös epätarkkoihin näkemyksiin ja ongelmiin asiakaspalvelussa.
- Tietojen täsmäytys on tärkeää myös yrityksen hallinnan integroinnissa.
Ylhäältä lukuun ottamatta tietojen täsmäytyksellä on monia etuja.
Tietojen täsmäytykseen liittyvä terminologia
Brutto virhe | Bruttovirheet mittauksissa. Se heijastaa vain ennakkovirheitä, instrumenttivikoja tai epänormaaleja melupiikkejä, jos käytät vain lyhyen keskiarvon laskentajaksoa. |
Havaittavuus | Havaittavuusanalyysi voi antaa sinulle tietoja siitä, mitkä muuttujat voidaan määrittää tietylle rajoiteryhmälle ja mittausjoukolle. |
Varianssi | Varianssi on mitta anturin vaihtelevuudesta. |
Irtisanominen | Se auttaa sinua määrittämään mitkä mittaukset on arvioitava muista muuttujista käyttämällä rajoitusyhtälöitä. |
Tietojen täsmäytyksen historia
Tässä ovat tärkeitä maamerkkejä tietojen täsmäytyksen historiasta.
- DVR (tietojen validointi ja täsmäytys) alkoi 1960-luvun alussa. Sen tarkoituksena oli sulkea tuotannon materiaalitaseet, joissa kaikille muuttujille oli saatavilla raaka-mittauksia.
- 1960-luvun lopulla kaikki mittaamattomat muuttujat otettiin huomioon tietojen täsmäytysprosessissa.
- Stanley ja Mah esittivät vuonna 1977 lähes vakaan tilan dynamiikan suodatusta ja rinnakkaista parametriarviointia varten.
- Dynaaminen DVR kehitettiin epälineaarisena optimointimallina, jonka Liebman julkaisi vuonna 1992
Tietojen täsmäytysprosessi
Tietojen täsmäytystapojen tyypit ovat:
Perustietojen täsmäytys
Perustietojen täsmäytys on tekniikka, jolla vain päätiedot sovitetaan yhteen lähteen ja kohteen välillä. Perustiedot ovat luonteeltaan enimmäkseen muuttumattomia tai muuttuvia hitaasti, eikä aineistoa suoriteta koontitoiminnolla.
Muutama yleinen esimerkki perustietojen täsmäytyksestä on:
- Rivien kokonaismäärä
- Lähde ja kohde yhteensä asiakkaana
- Lähteiden ja kohteen kohteiden kokonaismäärä
- Annettujen ehtojen mukainen rivien kokonaismäärä
- Aktiivisten käyttäjien määrä
- Passiivisten käyttäjien määrä jne.
Toiminnan tarkkuus
- Sinun on varmistettava, että tapahtumat ovat päteviä ja tarkoituksenmukaisia.
- Tarve tarkistaa, onko tapahtumille annettu lupa.
Transaktiotietojen täsmäytys
Transaktiotiedot muodostavat BI-raporttien perustan. Siksi transaktiotietojen epäsuhta voi vaikuttaa suoraan raportin luotettavuuteen ja koko BI-järjestelmään yleensä.
Transaktiotietojen täsmäytysmenetelmää käytetään kokonaissummana, joka estää yhteensopivuuden, joka johtuu muuttuvien ulottuvuuksien tarkkuudesta.
Esimerkkejä toimenpiteistä, joita käytetään tapahtumien tietojen täsmäytykseen, tulisi olla:
- Lähteestä ja tavoitteesta laskettujen kokonaistulojen summa
- Koko myydyn tuotteen summa laskettuna lähteestä ja kohteesta jne.
Automaattinen tietojen täsmäytys:
Suuressa tietovaraston hallintajärjestelmässä on kätevää automatisoida tietojen täsmäytysprosessi tekemällä siitä olennainen osa tiedon lataamista. Sen avulla voit ylläpitää erillisiä metatietotaulukoita. Lisäksi automaattinen täsmäytys pitää kaikki sidosryhmät ajan tasalla raporttien oikeellisuudesta.
Tietojen täsmäytyksen käytön parhaat käytännöt
- Tietojen täsmäytysprosessin tulisi pyrkiä korjaamaan mittausvirheet.
- Bruttovirheiden tulisi olla nolla, jotta tietojen täsmäytysprosessi olisi tehokas.
- Tietojen täsmäytyksen vakiomenetelmä on tukeutunut yksinkertaisiin tietolaskelmiin seuratakseen, onko kohdennettu tietueiden määrä siirtynyt vai ei.
- Tiedonsiirtoratkaisu tarjoaa samanlaiset täsmäytysominaisuudet ja datan prototyyppitoiminnot, jotka tarjoavat täyden määrän tietojen täsmäytystestausta.
Tietojen täsmäytystyökalut
1) OpenRefine
OpenRefine, joka tunnetaan aiemmin nimellä Google Refine, on hyödyllinen tietokannan täsmäytyskehys. Sen avulla voit puhdistaa ja siirtää sotkuisia tietoja.
Latauslinkki: https://openrefine.org/
2) TIBCO-selkeys
Tämä tietojen täsmäytystyökalu tarjoaa on-demand-ohjelmistopalveluja verkosta Software-as-a-service-muodossa. Sen avulla käyttäjät voivat tarkistaa tiedot ja puhdistaa tiedot. Se tarjoaa täydelliset täsmäytystestausominaisuudet. Laajasti käytetty ETL-prosessissa.
Latauslinkki: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure on edullinen ja tarkka tietojen puhdistusohjelmisto. Sen avulla voit puhdistaa suuren määrän tietoa, poistaa kaksoiskappaleet, korjata ja standardoida lopullisen tietojoukon suunnittelua.
Latauslinkki: https://winpure.com/
Yhteenveto
- Tietojen validointi ja täsmäytys (DVR) on tekniikka, joka käyttää matemaattisia malleja tietojen käsittelyyn.
- Tietojen täsmäytyksen avulla voit saada tarkkoja ja luotettavia tietoja teollisuuden prosessin tilasta raakamittaustiedoista.
- Bruttovirhe, havaittavuus, varianssi, redundanssi ovat tärkeitä termejä, joita käytetään tietojen täsmäytysprosessissa
- Tietojen validointi ja täsmäytys alkoi 1960-luvun alussa.
- Kolmen tyyppisiä tietojen täsmäytysmenetelmiä ovat 1) Perustietojen täsmäytys 2) Transaktiotietojen täsmäytys 3) Automaattinen tietojen täsmäytys
- Bruttovirheiden tulisi olla nolla, jotta tietojen täsmäytysprosessi olisi tehokas.
- Joitakin tärkeitä tietojen täsmäytystyökaluja ovat: 1) OpenRefine 2) TIBCO 3) Winpure
- Tätä menetelmää käytetään laajalti öljynjalostuksen / ydin- / kemianteollisuuden suorituskyvyn ja prosessin seurannassa