25 parasta ETL-haastattelukysymystä & Vastaukset

Anonim

Seuraavassa on usein kysyttyjä kysymyksiä haastatteluissa aloittelijoille sekä kokeneille ETL-testaajille ja kehittäjille.

1) Mikä on ETL?

Tietovarastoarkkitehtuurissa ETL on tärkeä komponentti, joka hallinnoi tietoja kaikista liiketoimintaprosesseista. ETL on lyhenne sanoista Pura, Muunna ja Lataa . Pura suorittaa tietojen lukemisen tietokannasta. Transform muuntaa tiedot muotoon, joka voisi olla sopiva raportointia ja analyysiä varten. Vaikka lataus suorittaa tietojen kirjoittamisen kohdetietokantaan.

2) Selitä, mitä ETL-testaustoiminnot sisältävät?

ETL-testaus sisältää

  • Tarkista, muuttuvatko tiedot liiketoiminnan vaatimusten mukaisesti oikein
  • Varmista, että ennustetut tiedot ladataan tietovarastoon ilman katkaisuja ja tietojen menetystä
  • Varmista, että ETL-sovellus ilmoittaa virheellisistä tiedoista ja korvaa oletusarvoilla
  • Varmista, että tiedot latautuvat odotettuun ajanjaksoon skaalautuvuuden ja suorituskyvyn parantamiseksi

3) Mainitse mitkä ovat tietovarastosovellusten tyypit ja mikä on ero tiedonlouhinnan ja tietovarastoinnin välillä?

Tietovarastosovellusten tyypit ovat

  • Tietojen käsittely
  • Analyyttinen käsittely
  • Tiedonlouhinta

Tiedon louhinta voidaan määritellä prosessiksi piilotetun ennakoivan informaation poimimiseksi suurista tietokannoista ja tulkita tietoja, kun taas tietovarastointi voi hyödyntää datakaivosta tietojen analyyttiseen käsittelyyn nopeammin. Tietovarastointi on prosessi, jossa tiedot yhdistetään useista lähteistä yhdeksi arkistoksi

4) Mitkä ovat ETL: ssä käytetyt työkalut?

  • Cognosin päätösvirta
  • Oracle Warehouse Builder
  • Liike-esineet XI
  • SAS-yritysvarasto
  • SAS Enterprise ETL -palvelin

5) Mikä on tosiasia? Mitkä ovat tosiasiat?

Se on keskeinen osa moniulotteista mallia, joka sisältää analysoitavat toimenpiteet. Faktat liittyvät mittoihin.

Tyypit tosiasiat ovat

  • Lisäaineen tosiasiat
  • Puolilisäaineen tosiasiat
  • Ei-additiiviset tosiasiat

6) Selitä, mitä ovat kuutiot ja OLAP-kuutiot?

Kuutiot ovat tietojenkäsittely-yksiköitä, jotka koostuvat tietotaulusta ja tietovaraston ulottuvuuksista. Se tarjoaa moniulotteisen analyysin.

OLAP on lyhenne sanoista Online Analytics Processing, ja OLAP-kuutio tallentaa suuria tietoja ulottuvuuksina raportointia varten. Se koostuu tosiseikoista, joita kutsutaan mittasuhteiden mukaan luokiteltuiksi mittareiksi.

7) Selitä mikä on jäljitystaso ja mitkä ovat tyypit?

Seurantataso on lokitiedostoihin tallennettujen tietojen määrä. Seurantataso voidaan luokitella kahteen Normal- ja Verbose-tasoon. Normaali taso selittää jäljitystason yksityiskohtaisesti, kun taas verbose selittää jäljitystasot jokaisella rivillä.

8) Selitä, mikä on tosiseikat?

Viljafaktat voidaan määritellä tasoksi, jolla tosiseikatiedot tallennetaan. Se tunnetaan myös nimellä tosiseikkojen tarkkuus

9) Selitä mikä on tosiasiaton tosiseikkakaava ja mikä on mitat?

Faktataulukko, jossa ei ole mittoja, tunnetaan nimellä Fakteettomat tositaulukot. Se voi tarkastella tapahtumien määrää. Esimerkiksi sitä käytetään tallentamaan tapahtuma, kuten työntekijöiden määrä yrityksessä.

Faktataulukon sarakkeisiin perustuva numeerinen data tunnetaan nimellä Measures

10) Selitä, mikä on muutos?

Muunnos on arkistoobjekti, joka tuottaa, muokkaa tai välittää tietoja. Transformaatiot ovat kahdenlaisia: aktiivisia ja passiivisia

11) Selitä hakumuunnoksen käyttöä?

Hakumuunnos on hyödyllinen

  • Liittyvän arvon saaminen taulukosta käyttämällä sarake-arvoa
  • Päivitä hitaasti muuttuva mittataulukko
  • Tarkista, onko taulukossa jo tietueita

12) Selitä, mikä on osiointi, hajautusosio ja pyöreän robiinin osiointi?

Suorituskyvyn parantamiseksi transaktiot jaetaan osiin, tätä kutsutaan osioinniksi. Partioning mahdollistaa Informatica Server -palvelimen luoda useita yhteyksiä eri lähteisiin

Osiotyypit ovat

Round-Robin-osiointi:

  • Informatican mukaan data jaetaan tasaisesti kaikkien osioiden kesken
  • Tämä osiointi on käytettävissä jokaisessa osiossa, jossa käsiteltävien rivien määrä on suunnilleen sama

Hash-osiointi:

  • Informatica-palvelin käyttää hajautusfunktiota avainten osioimiseksi tietojen ryhmittelemiseksi osioiden kesken
  • Sitä käytetään varmistettaessa, että samalla osiointirivillä varustetut riviryhmät on varmistettava samassa osiossa

13) Mainitse mikä on DataReader-kohdesovittimen käytön etu?

DataReader-kohdesovittimen käytön etuna on, että se täyttää ADO-tietuejoukon (koostuu tietueista ja sarakkeista) muistiin ja paljastaa tiedot DataFlow-tehtävästä toteuttamalla DataReader-käyttöliittymän, jotta muut sovellukset voivat kuluttaa tietoja.

14) Mitkä ovat mahdollisuudet päivittää taulukko SSIS: n (SQL Server Integration Service) avulla?

Voit päivittää taulukon SSIS: n avulla seuraavilla tavoilla:

  • Käytä SQL-komentoa
  • Käytä vaiheistustaulukkoa
  • Käytä välimuistia
  • Käytä komentosarjatehtävää
  • Käytä päivittämiseen koko tietokannan nimeä, jos käytetään MSSQL: ää

15) Jos sinulla on muu kuin OLEDB (Object Linking and Embedding Database) -lähde haulle, mitä tekisit?

Jos sinulla on ei-OLEBD-lähde hakua varten, sinun on käytettävä välimuistia lataamaan tietoja ja käyttämään sitä lähteenä

16) Missä tapauksessa käytät dynaamista välimuistia ja staattista välimuistia yhdistetyissä ja yhdistämättömissä muunnoksissa?

  • Dynaamista välimuistia käytetään, kun joudut päivittämään päätaulukon ja hitaasti muuttuvien mittojen (SCD) tyypin 1
  • Tasaisille tiedostoille käytetään staattista välimuistia

17) Selitä, mitkä ovat erot yhdistämättömän ja yhdistetyn haun välillä?

Yhdistetty haku

Yhdistämätön haku

  • Yhdistetty haku osallistuu kartoitukseen

- Sitä käytetään, kun hakutoimintoa käytetään lausekemuutoksen sijasta kartoitettaessa

  • Useita arvoja voidaan palauttaa

- Palauttaa vain yhden lähtöportin

  • Se voidaan liittää toiseen muunnokseen ja palauttaa arvon
  • Toista muunnosta ei voida yhdistää
  • Staattista tai dynaamista välimuistia voidaan käyttää yhdistettyyn hakuun
  • Ei yhdistetty vain staattisena välimuistina
  • Yhdistetty haku tukee käyttäjän määrittämiä oletusarvoja
  • Yhdistämätön haku ei tue käyttäjän määrittämiä oletusarvoja
  • Yhdistetyn haun useita -sarakkeessa voit palata samalta riviltä tai lisätä dynaamiseen hakuvälimuistiin
  • Yhdistämätön haku määrittää yhden paluuportin ja palauttaa yhden sarakkeen kustakin rivistä

18) Selitä mikä on tietolähteenäkymä?

Tietolähteenäkymän avulla voidaan määritellä relaatiomalli, jota käytetään analyysipalvelutietokannoissa. Mitat ja kuutiot luodaan suoraan tietolähdekohteista, mutta ne luodaan tietolähteenäkymistä.

19) Selitä, mikä on ero OLAP-työkalujen ja ETL-työkalujen välillä?

Ero ETL: n ja OLAP-työkalun välillä on se

ETL-työkalu on tarkoitettu tietojen keräämiseen vanhoista järjestelmistä ja lataamiseen määritettyyn tietokantaan jonkinasteisella tietojen puhdistamisprosessilla.

Esimerkki: Data-vaihe, Informatica jne.

Vaikka OLAP on tarkoitettu raportointiin OLAP-tiedoissa, jotka ovat saatavilla monisuuntaisessa mallissa.

Esimerkki: Yritysobjektit, Cognos jne.

20) Kuinka voit purkaa SAP-tietoja Informatican avulla?

  • Power connect -vaihtoehdolla purat SAP-tiedot informatican avulla
  • Asenna ja määritä PowerConnect-työkalu
  • Tuo lähde Lähde-analysaattoriin. Informatican ja SAP: n välillä Powerconnect toimii väylänä. Seuraava vaihe on luoda ABAP-koodi kartoitusta varten, jolloin vain informatica voi vetää tietoja SAP: sta
  • Lähteiden liittämiseen ja tuomiseen ulkoisista järjestelmistä käytetään Power Connectia

21) Mainitse, mikä on ero Power Martin ja Power Centerin välillä?

Voimakeskus

Power Mart

  • Oletetaan, että prosessoidaan valtava määrä dataa
  • Oletetaan, että prosessoidaan vähän dataa
  • Se tukee ERP-lähteitä, kuten SAP, people soft jne.
  • Se ei tue ERP-lähteitä
  • Se tukee paikallista ja globaalia arkistoa
  • Se tukee paikallista arkistoa
  • Se muuntaa paikallisen globaaliksi arkistoksi
  • Sillä ei ole spesifikaatiota, joka muuntaa paikallisen globaaliksi arkistoksi

22) Selitä, mikä lavastusalue on ja mikä on lavastusalueen tarkoitus?

Tietojen vaiheistus on alue, jolla pidät tietoja väliaikaisesti tietovarastopalvelimella. Tietojen vaiheistus sisältää seuraavat vaiheet

  • Lähdetietojen louhinta ja tietojen muuntaminen (uudelleenjärjestely)
  • Tietojen muunnos (tietojen puhdistus, arvonmuunnos)
  • Korvaa avainmääritykset

23) Mikä on bussikaavio?

Eri liiketoimintaprosesseissa yhteisten ulottuvuuksien tunnistamiseksi käytetään BUS-skeemaa. Siinä on mukautetut mitat sekä standardoitu tietomääritelmä

24) Selitä, mitä tietojen puhdistus on?

Tietojen puhdistus on prosessi, jolla tietoja poistetaan tietovarastosta. Se poistaa roskapostin kaltaiset rivit, joissa on nolla-arvoja tai ylimääräisiä välilyöntejä.

25) Selitä, mitä ovat skeemaobjektit?

Malliobjektit ovat looginen rakenne, joka viittaa suoraan tietokantadataan. Skeema-objektit sisältävät taulukot, näkymät, sekvenssisynonyymit, hakemistot, klusterit, toimintopaketit ja tietokantalinkit

26) Selitä nämä termit Session, Worklet, Mapplet ja Workflow?

  • Mapplet: Se järjestää tai luo muunnosjoukkoja
  • Worklet: Se edustaa tiettyjä annettuja tehtäviä
  • Työnkulku: Se on joukko ohjeita, jotka kertovat palvelimelle tehtävien suorittamisesta
  • Istunto: Se on joukko parametreja, jotka kertovat palvelimelle, kuinka tietoja siirretään lähteistä kohteisiin

Ilmainen PDF-tiedosto: ETL-haastattelukysymysten ja vastausten testaaminen