Mikä on Data Lake? Se on arkkitehtuuri

Sisällysluettelo:

Anonim

Mikä on Data Lake?

Data Lake on varastovarasto, joka voi tallentaa suuren määrän jäsenneltyjä, osittain jäsenneltyjä ja jäsentämättömiä tietoja. Se on paikka tallentaa kaiken tyyppisiä tietoja alkuperäisessä muodossaan ilman kiinteitä rajoituksia tilin koolle tai tiedostolle. Se tarjoaa suuren datamäärän analyyttisen suorituskyvyn ja natiivin integraation lisäämiseksi.

Data Lake on kuin iso kontti, joka on hyvin samanlainen kuin todellinen järvi ja joet. Aivan kuten järvessä, jossa on useita sivujokeja, datajärvellä on jäsenneltyjä tietoja, jäsentämättömiä tietoja, koneesta koneeseen, lokit läpi virtaamassa reaaliajassa.

Data Lake demokratisoi datan ja on kustannustehokas tapa tallentaa kaikki organisaation tiedot myöhempää käsittelyä varten. Tutkimusanalyytikko voi keskittyä etsimään merkityskuvioita tiedoista, ei itse tiedoista.

Toisin kuin hierarkkinen Dataware-talo, johon tiedot tallennetaan Tiedostoihin ja kansioihin, Datajärvellä on tasainen arkkitehtuuri. Jokaiselle Data Lake -järjes- telmän tietoelementille annetaan yksilöllinen tunniste ja ne merkitään metadatatiedoilla.

Tässä opetusohjelmassa opit-

  • Mikä on Data Lake?
  • Miksi Data Lake?
  • Data Lake -arkkitehtuuri
  • Avaintietojärjestelmän käsitteet
  • Datajärven kypsyysvaiheet
  • Parhaita käytäntöjä Data Lake -toteutukseen:
  • Ero Datajärvien ja tietovaraston välillä
  • Data Laken käytön edut ja riskit:

Miksi Data Lake?

Datajärven rakentamisen päätavoitteena on tarjota tarkentamaton näkymä tiedoista tutkijoille.

Syyt Data Laken käyttöön ovat:

  • Hadoopin kaltaisten tallennusmoottoreiden myötä erilaisten tietojen tallentamisesta on tullut helppoa. Dataa ei tarvitse mallintaa yrityksen laajuiseksi skeemaksi Data Lake -palvelun avulla.
  • Tietomäärän, tietojen laadun ja metatietojen lisääntyessä myös analyysien laatu kasvaa.
  • Data Lake tarjoaa liiketoiminnan ketteryyttä
  • Koneoppimista ja tekoälyä voidaan käyttää kannattavien ennusteiden tekemiseen.
  • Se tarjoaa kilpailuetua toteuttavalle organisaatiolle.
  • Datasäilörakennetta ei ole. Data Lake antaa 360 asteen näkymän asiakkaille ja tekee analyysistä vankemman.

Data Lake -arkkitehtuuri

Kuvassa on esitetty Business Data Lake -arkkitehtuuri. Alemmat tasot edustavat tietoja, jotka ovat enimmäkseen levossa, kun taas ylemmät tasot näyttävät reaaliaikaisia ​​tapahtumia. Tämä data kulkee järjestelmän läpi ilman viivettä tai ei lainkaan. Seuraavat ovat tärkeitä tasoja Data Lake -arkkitehtuurissa:

  1. Nielemisaste : Vasemmalla puolella olevat tasot kuvaavat tietolähteitä. Tiedot voidaan ladata datajärvelle erissä tai reaaliajassa
  2. Insights Tier: Oikealla olevat tasot edustavat tutkimuspuolta, jossa käytetään järjestelmän oivalluksia. SQL-, NoSQL- tai jopa Excel-kyselyjä voidaan käyttää tietojen analysointiin.
  3. HDFS on kustannustehokas ratkaisu sekä jäsenneltyyn että strukturoimattomaan dataan. Se on laskualue kaikille järjestelmässä levossa oleville tiedoille.
  4. Tislauskerros ottaa tiedot varastorenkaasta ja muuntaa sen jäsenneltyyn dataan analyysin helpottamiseksi.
  5. Käsittelemällä kerrostalouden analyyttisiä algoritmeja ja käyttäjien kyselyjä vaihtelevalla reaaliaikaisella, vuorovaikutteisella erällä jäsenneltyjen tietojen luomiseksi analyysin helpottamiseksi.
  6. Yhtenäinen toimintataso ohjaa järjestelmän hallintaa ja valvontaa. Se sisältää tarkastuksen ja osaamisen hallinnan, tiedonhallinnan, työnkulun hallinnan.

Avaintietojärjestelmän käsitteet

Seuraavassa on tärkeimmät Data Lake -konseptit, jotka on ymmärrettävä ymmärtämään Data Lake -arkkitehtuuri kokonaan

Tietojen käsittely

Data Ingestion antaa liittimille mahdollisuuden hankkia tietoja eri tietolähteistä ja ladata Datajärvelle.

Tiedonsiirto tukee:

  • Kaiken tyyppiset strukturoidut, osittain strukturoidut ja strukturoimattomat tiedot.
  • Useita annoksia, kuten erä, reaaliaikainen, kertaluontoinen.
  • Monen tyyppisiä tietolähteitä, kuten tietokannat, verkkopalvelimet, sähköpostit, IoT ja FTP.

Tietovarasto

Tietojen tallennuksen tulisi olla skaalautuva, se tarjoaa kustannustehokasta tallennustilaa ja mahdollistaa nopean pääsyn tietojen etsintään. Sen tulisi tukea erilaisia ​​datamuotoja.

Tietojen hallinta

Tietojen hallinta on prosessi organisaatiossa käytettävien tietojen saatavuuden, käytettävyyden, turvallisuuden ja eheyden hallitsemiseksi.

Turvallisuus

Tietoturva on toteutettava jokaisessa Data-järven kerroksessa. Se alkaa varastoinnista, maadoittamisesta ja kulutuksesta. Perustarve on estää pääsy luvattomille käyttäjille. Sen tulisi tukea erilaisia ​​työkaluja tietojen käyttämiseen helppokäyttöisillä käyttöliittymillä ja hallintapaneeleilla.

Todennus, kirjanpito, valtuutus ja tietosuoja ovat joitain tärkeitä ominaisuuksia tietojenkäsittelytietojen turvallisuudessa.

Tietojen laatu:

Datan laatu on olennainen osa Data Lake -arkkitehtuuria. Tietoja käytetään tarkkaan liiketoiminnan arvoon. Oivallusten poimiminen huonolaatuisista tiedoista johtaa heikkolaatuisiin oivalluksiin.

Tiedonhaku

Tiedonhaku on toinen tärkeä vaihe ennen kuin voit aloittaa tietojen tai analyysin valmistelun. Tässä vaiheessa merkintätekniikkaa käytetään tiedon ymmärtämisen ilmaisemiseen järjestämällä ja tulkitsemalla Datajärvelle syötetty data.

Tietojen tarkastus

Kaksi tärkeintä tietojen tarkastustehtävää on keskeisten tietojoukkojen muutosten seuraaminen.

  1. Tärkeiden tietojoukkoelementtien muutosten seuranta
  2. Kaappaa miten / milloin / ja kuka muuttaa näitä elementtejä.

Tietojen tarkastus auttaa arvioimaan riskejä ja vaatimustenmukaisuutta.

Data Lineage

Tämä komponentti käsittelee tietojen alkuperää. Se käsittelee pääasiassa sitä, mihin se muuttuu ajan myötä ja mitä sille tapahtuu. Se helpottaa virheiden korjaamista tietojen analysointiprosessissa alkuperästä määränpäähän.

Tietojen etsintä

Se on tietojen analysoinnin alkuvaihe. Se auttaa tunnistamaan oikean tietojoukon, mikä on välttämätöntä ennen tietojen etsinnän aloittamista.

Kaikkien annettujen komponenttien on toimittava yhdessä voidakseen olla tärkeä osa Data Lake -rakennusta, joka voi helposti kehittyä ja tutkia ympäristöä.

Datajärven kypsyysvaiheet

Data Lake Maturity -vaiheiden määritelmä eroaa oppikirjoista toiseen. Vaikka ydin pysyy samana. Kypsyyden jälkeen vaiheen määrittely tapahtuu maallikon näkökulmasta.

Vaihe 1: Käsittele ja nauti tietoja mittakaavassa

Tämä tietojen kypsyyden ensimmäinen vaihe parantaa kykyä muuntaa ja analysoida tietoja. Täältä yritysten omistajien on löydettävä työkalut taitokokonaisuutensa mukaan saadakseen enemmän tietoja ja rakentamaan analyyttisiä sovelluksia.

Vaihe 2: Analyyttisen lihaksen rakentaminen

Tämä on toinen vaihe, jossa parannetaan kykyä muuntaa ja analysoida tietoja. Tässä vaiheessa yritykset käyttävät työkalua, joka sopii parhaiten heidän taitokokonaisuuteensa. He alkavat hankkia lisää dataa ja rakentaa sovelluksia. Tässä käytetään yrityksen tietovaraston ja datajärven ominaisuuksia.

Vaihe 3: EDW ja Data Lake toimivat yhdessä

Tähän vaiheeseen sisältyy tietojen ja analytiikan saaminen mahdollisimman monien ihmisten käsiin. Tässä vaiheessa datajärvi ja yritystietovarasto alkavat toimia unionissa. Molemmat näyttävät osaa analytiikassa

Vaihe 4: Yrityskyky järvessä

Tässä datajärven kypsyysvaiheessa yritysominaisuudet lisätään Data Lake. Tietohallinnon, tiedon elinkaaren hallinnan ja metatietojen hallinnan käyttöönotto. Hyvin harvat organisaatiot voivat kuitenkin saavuttaa tämän kypsyysasteen, mutta tämä taso kasvaa tulevaisuudessa.

Parhaita käytäntöjä Data Lake -toteutukseen:

  • Arkkitehtonisten komponenttien, niiden vuorovaikutuksen ja tunnistettujen tuotteiden tulisi tukea alkuperäisiä tietotyyppejä
  • Data Lake -ympäristön suunnittelun tulisi perustua siihen, mikä on käytettävissä sen sijaan, mitä vaaditaan. Kaaviota ja tietovaatimuksia ei määritetä ennen kuin niitä kysytään
  • Suunnittelun tulisi ohjata kertakäyttöisiä komponentteja, jotka on integroitu palvelun sovellusliittymään.
  • Tietojen löytämistä, tallentamista, tallentamista, hallintaa, laatua, muunnosta ja visualisointia tulisi hallita itsenäisesti.
  • Data Lake -arkkitehtuuri tulisi räätälöidä tietylle toimialalle. Sen tulisi varmistaa, että kyseiselle toimialueelle tarvittavat ominaisuudet ovat luonnostaan ​​osa suunnittelua
  • Uusien tietolähteiden nopea sisällyttäminen alukseen on tärkeää
  • Data Lake auttaa räätälöityä hallintaa poimimaan enimmäisarvon
  • Data Laken tulisi tukea olemassa olevia yritystietojen hallintatekniikoita ja -menetelmiä

Datajärven rakentamisen haasteet:

  • Data Lakessa datamäärä on suurempi, joten prosessin on oltava enemmän riippuvainen ohjelmallisesta hallinnosta
  • Niukkojen, epätäydellisten ja epävakaiden tietojen käsittely on vaikeaa
  • Laajempi tietojoukko ja lähde tarvitsevat suurempaa tiedonhallintaa ja tukea

Ero Datajärvien ja tietovaraston välillä

Parametrit Tietojärvet Tietovarasto
Tiedot Datajärvet tallentavat kaiken. Data Warehouse keskittyy vain liiketoimintaprosesseihin.
Käsittely Tiedot ovat pääasiassa käsittelemättömiä Hyvin käsitelty data.
Tietotyyppi Se voi olla strukturoimaton, osittain strukturoitu ja strukturoitu. Se on enimmäkseen taulukkomuodossa ja rakenteessa.
Tehtävä Jaa tietojen hallinta Optimoitu tietojen hakemiseen
Ketteryys Erittäin ketterä, määritä ja määritä uudelleen tarvittaessa. Data Lake -verkkoon verrattuna se on vähemmän ketterä ja kiinteän kokoonpanon kanssa.
Käyttäjät Data Lake käyttää enimmäkseen Data Scientist Liiketoiminnan ammattilaiset käyttävät laajasti datavarastoa
Varastointi Datajärvien suunnittelu edulliseen varastointiin. Käytetään kallista tallennustilaa, joka antaa nopeat vasteajat
Turvallisuus Tarjoaa vähemmän hallintaa. Mahdollistaa tietojen paremman hallinnan.
EDW: n korvaaminen Datajärvi voi olla EDW: n lähde Täydentää EDW: tä (ei korvaa)
Kaavio Lukemisen kaavio (ei ennalta määritettyjä skeemejä) Kirjoituskaavio (ennalta määritetyt kaaviot)
Tietojenkäsittely Auttaa nopeasti saamaan uutta tietoa. Uuden sisällön käyttöönotto vie aikaa.
Tietojen tarkkuus Tiedot matalalla yksityiskohtaisuudella tai tarkkuudella. Tiedot tiivistetyllä tai yhdistetyllä yksityiskohtaisuudella.
Työkalut Voi käyttää avointa lähdekoodia / työkaluja, kuten Hadoop / Map Reduce Enimmäkseen kaupallisia työkaluja.

Data Laken käytön edut ja riskit:

Tässä on joitain tärkeimpiä etuja Data Lake -palvelun käytössä:

  • Auttaa täysin tuotteiden ionisoinnissa ja edistyneessä analyysissä
  • Tarjoaa kustannustehokkaan skaalautuvuuden ja joustavuuden
  • Tarjoaa arvoa rajoittamattomista tietotyypeistä
  • Vähentää pitkäaikaisia ​​omistuskustannuksia
  • Sallii tiedostojen taloudellisen tallennuksen
  • Nopeasti sopeutuva muutoksiin
  • Datajärven tärkein etu on erilaisten sisältölähteiden keskittäminen
  • Eri osastojen käyttäjät voivat olla hajallaan ympäri maailmaa, ja heillä on joustava pääsy tietoihin

Data Laken käytön riski:

  • Jonkin ajan kuluttua Data Lake saattaa menettää merkityksensä ja vauhdin
  • Datajärven suunnittelussa on suurempi riski
  • Rakentamattomat tiedot voivat johtaa hallitsemattomaan kaaokseen, käyttämättömiin tietoihin, erilaisiin ja monimutkaisiin työkaluihin, yrityskohtaiseen yhteistyöhön, yhtenäiseen, johdonmukaiseen ja yleiseen
  • Se lisää myös varastointi- ja laskentakustannuksia
  • Ei ole mitään keinoa saada oivalluksia muilta, jotka ovat työskennelleet tietojen kanssa, koska aiempien analyytikkojen havaintojen linjasta ei ole tietoa
  • Tietojärvien suurin riski on turvallisuus ja kulunvalvonta. Joskus tietoja voidaan sijoittaa järvelle ilman valvontaa, koska joillakin tiedoilla voi olla yksityisyyttä ja sääntelyä

Yhteenveto:

  • Data Lake on varastovarasto, joka voi tallentaa suuren määrän jäsenneltyjä, osittain jäsenneltyjä ja jäsentämättömiä tietoja.
  • Datajärven rakentamisen päätavoitteena on tarjota tarkentamaton näkymä tiedoista tutkijoille.
  • Yhtenäinen toimintataso, prosessointitaso, tislausaste ja HDFS ovat tärkeitä kerroksia Data Lake -arkkitehtuurissa
  • Tiedonkeruu, tietojen tallennus, tietojen laatu, tietojen tarkastus, tietojen etsintä, tietojen löytäminen ovat joitain tärkeitä komponentteja Data Lake -arkkitehtuurissa
  • Data Lake -ympäristön suunnittelun tulisi perustua siihen, mikä on käytettävissä sen sijaan, mitä vaaditaan.
  • Data Lake vähentää pitkäaikaisia ​​omistuskustannuksia ja mahdollistaa tiedostojen taloudellisen tallennuksen
  • Tietojärvien suurin riski on turvallisuus ja kulunvalvonta. Joskus tietoja voidaan sijoittaa järvelle ilman valvontaa, koska joillakin tiedoilla voi olla yksityisyyttä ja sääntelyä.