62 parasta insinöörihaastattelukysymystä & Vastaukset

Anonim

Tässä on usein kysyttyjä datainsinööri-haastattelukysymyksiä aloittelijoille ja kokeneille ehdokkaille oikean työn saamiseksi.

1) Selitä tietotekniikka.

Tietotekniikka on termi, jota käytetään big datassa. Se keskittyy tiedonkeruun ja tutkimuksen soveltamiseen. Eri lähteistä tuotetut tiedot ovat vain raakatietoja. Tietotekniikka auttaa muuntaa nämä raakatiedot hyödyllisiksi tiedoiksi.

2) Mikä on tietomallinnus?

Tietomallinnus on menetelmä monimutkaisen ohjelmistosuunnittelun dokumentoimiseksi kaaviona, jotta kuka tahansa voi helposti ymmärtää sen. Se on käsitteellinen kuvaus dataobjekteista, jotka liittyvät erilaisten dataobjektien ja sääntöjen välille.

3) Luettele erityyppisiä suunnittelumalleja tietomallinnuksessa

Tietomallinnuksessa on pääasiassa kahden tyyppisiä kaavioita: 1) Tähtimalli ja 2) Lumihiutaleiden skeema.

4) Erota jäsennelty ja strukturoimaton data

Seuraavassa on ero jäsenneltyjen ja jäsentämättömien tietojen välillä:

Parametri Jäsennelty data Rakentamattomat tiedot
Varastointi DBMS Hallitsemattomat tiedostorakenteet
Vakio ADO.net, ODBC ja SQL STMP, XML, CSV ja SMS
Integrointityökalu ELT (pura, muunna, lataa) Manuaalinen tietojen syöttö tai eräkäsittely, joka sisältää koodeja
skaalaus Kaavion skaalaus on vaikeaa Skaalaus on erittäin helppoa.

5) Selitä kaikki Hadoop-sovelluksen komponentit

Hadoop-sovelluksen komponentit ovat seuraavat:

  • Hadoop Common: Se on yleinen joukko apuohjelmia ja kirjastoja, joita Hadoop käyttää.
  • HDFS: Tämä Hadoop-sovellus liittyy tiedostojärjestelmään, johon Hadoop-tiedot on tallennettu. Se on hajautettu tiedostojärjestelmä, jolla on suuri kaistanleveys.
  • Hadoop MapReduce: Se perustuu algoritmin mukaan laajamittaisen tietojenkäsittelyn tarjoamiseen.
  • Hadoop Lanka: Sitä käytetään resurssien hallintaan Hadoop-klusterissa. Sitä voidaan käyttää myös käyttäjien tehtävien ajoitukseen.

6) Mikä on NameNode?

Se on HDFS: n keskipiste. Se tallentaa HDFS-tietoja ja seuraa erilaisia ​​tiedostoja klustereissa. Tällöin varsinaisia ​​tietoja ei tallenneta. Tiedot tallennetaan DataNodesiin.

7) Määritä Hadoop-suoratoisto

Se on apuohjelma, joka mahdollistaa kartan luomisen, vähentää työpaikkoja ja lähettää ne tiettyyn klusteriin.

8) Mikä on HDFS: n koko muoto?

HDFS on lyhenne sanoista Hadoop Distributed File System.

9) Määritä esto ja estoskanneri HDFS: ssä

Lohkot ovat datatiedoston pienin yksikkö. Hadoop jakaa valtavat tiedostot automaattisesti pieniksi paloiksi.

Lohkoskanneri tarkistaa luettelon lohkoista, jotka esitetään DataNode-palvelussa.

10) Mitä vaiheita tapahtuu, kun estoskanneri havaitsee vioittuneen tietolohkon?

Seuraavat vaiheet tapahtuvat, kun estoskanneri löytää vioittuneen tietolohkon:

1) Ensinnäkin, kun estoskanneri löytää vioittuneen tietolohkon, DataNode raportoi NameNodelle

2) NameNode aloittaa uuden kopion luomisen käyttämällä vioittuneen lohkon kopiota.

3) Oikeiden kopioiden replikointiluku yrittää sovittaa replikointikertoimen kanssa. Jos löydetty vastaavuus vioittunutta tietolohkoa ei poisteta.

11) Nimeä kaksi viestiä, jotka NameNode saa DataNodelta?

NameNode saa kaksi viestiä DataNodelta. Ne ovat 1) Estoraportti ja 2) Syke.

12) Luettele useita XML-määritystiedostoja Hadoopissa?

Hadoopissa on viisi XML-määritystiedostoa:

  • Mapred-sivusto
  • Ydinsivusto
  • HDFS-sivusto
  • Lanka-sivusto

13) Mitkä ovat neljä V-isoa dataa?

Neljä V-isoa dataa ovat:

  • Nopeus
  • Lajike
  • Äänenvoimakkuus
  • Todenmukaisuus

14) Selitä Hadoopin ominaisuudet

Hadoopin tärkeitä ominaisuuksia ovat:

  • Se on avoimen lähdekoodin kehys, joka on saatavana ilmaisohjelmana.
  • Hadoop on yhteensopiva monentyyppisten laitteistojen kanssa ja helposti käytettävissä olevia uusia laitteita tietyssä solmussa.
  • Hadoop tukee nopeammin hajautettua tietojen käsittelyä.
  • Se tallentaa tiedot klusteriin, joka on riippumaton muusta toiminnasta.
  • Hadoop sallii 3 kopion luomisen jokaiselle lohkolle eri solmuilla.

15) Selitä Reducerin päämenetelmät

  • setup (): Sitä käytetään parametrien konfigurointiin, kuten syötetietojen koko ja hajautettu välimuisti.
  • cleanup (): Tätä menetelmää käytetään väliaikaisten tiedostojen puhdistamiseen.
  • reduc (): Se on pelkistimen sydän, jota kutsutaan kerran avainta kohden ja siihen liittyvä pienennetty tehtävä

16) Mikä on COSHH: n lyhenne?

COSHH: n lyhenne on Heterogeenisten Hadoop-järjestelmien luokittelu- ja optimointipohjainen aikataulu.

17) Selitä tähtiohjelma

Star Schema tai Star Join Schema on yksinkertaisin tyyppi Data Warehouse -mallia. Se tunnetaan tähtikaaviona, koska sen rakenne on kuin tähti. Tähtikaaviossa tähden keskellä voi olla yksi tietotaulukko ja useita siihen liittyviä ulottuvuustaulukoita. Tätä mallia käytetään suurten tietojoukkojen kyselyyn.

18) Kuinka käyttää big data -ratkaisua?

Noudata seuraavia ohjeita voidaksesi ottaa käyttöön big data -ratkaisun.

1) Integroi tiedot käyttämällä tietolähteitä, kuten RDBMS, SAP, MySQL, Salesforce

2) Säilytä uutetut tiedot joko NoSQL-tietokantaan tai HDFS: ään.

3) Ota käyttöön big data -ratkaisu käyttämällä prosessointikehyksiä, kuten Pig, Spark ja MapReduce.

19) Selitä FSCK

Tiedostojärjestelmän tarkistus tai FSCK on HDFS: n käyttämä komento. FSCK-komentoa käytetään tiedostojen epäjohdonmukaisuuksien ja ongelmien tarkistamiseen.

20) Selitä lumihiutaleohjelma

Lumihiutalemalli on tähtimallin jatke, ja se lisää uusia ulottuvuuksia. Sitä kutsutaan lumihiutaleeksi, koska sen kaavio näyttää lumihiutaleelta. Dimensiotaulukot on normalisoitu, mikä jakaa tiedot lisätaulukoiksi.

21) Erota tähti- ja lumihiutaleohjelma

Tähti Lumihiutale skeema
Mitahierarkiat tallennetaan mittataulukkoon. Jokainen hierarkia tallennetaan erillisiin taulukoihin.
Datan redundanssin mahdollisuudet ovat suuret Datan redundanssin mahdollisuudet ovat vähäiset.
Se on hyvin yksinkertainen DB-suunnittelu Se on monimutkainen DB-suunnittelu
Tarjoa nopeampi tapa kuutioiden käsittelyyn Kuutioiden käsittely on hidasta monimutkaisen liitoksen vuoksi.

22) Selitä Hadoopin hajautettu tiedostojärjestelmä

Hadoop toimii skaalautuvien hajautettujen tiedostojärjestelmien kanssa, kuten S3, HFTP FS, FS ja HDFS. Hadoop-hajautettu tiedostojärjestelmä tehdään Google-tiedostojärjestelmässä. Tämä tiedostojärjestelmä on suunniteltu siten, että se toimii helposti suurella tietokonejärjestelmän klusterilla.

23) Selitä tietotekniikan päävastuut

Datainsinööreillä on monia vastuita. He hallitsevat tietolähdejärjestelmää. Tietotekniikka yksinkertaistaa monimutkaista tietorakennetta ja estää tietojen päällekkäisyyden. Monta kertaa ne tarjoavat myös ELT: n ja tiedonmuunnoksen.

24) Mikä on langan koko muoto?

Lankan koko muoto on jälleen yksi resurssineuvottelija.

25) Luettele eri tilat Hadoopissa

Hadoopin tilat ovat 1) Itsenäinen tila 2) Pseudo-hajautettu tila 3) Täysin hajautettu tila.

26) Kuinka saavuttaa turvallisuus Hadoopissa?

Suorita seuraavat vaiheet turvallisuuden saavuttamiseksi Hadoopissa:

1) Ensimmäinen vaihe on suojata asiakkaan todennuskanava palvelimelle. Anna aikaleima asiakkaalle.

2) Toisessa vaiheessa asiakas käyttää vastaanotettua aikaleimaa pyytääkseen TGS: ää palvelulipulle.

3) Viimeisessä vaiheessa asiakas käyttää palvelulippua itsetodennukseen tietylle palvelimelle.

27) Mikä on syke Hadoopissa?

Hadoopissa NameNode ja DataNode ovat yhteydessä toisiinsa. Syke on DataNoden säännöllisesti lähettämä signaali NameNodelle osoittamaan sen läsnäoloa.

28) Tee ero NAS: n ja DAS: n välillä Hadoopissa

NAS DAS
Tallennuskapasiteetti on 10 9 - 10 12 tavua. Tallennuskapasiteetti on 10 9 tavua.
Hallintakustannukset gigatavua kohti ovat kohtuulliset. Hallintakustannukset gigatavua kohti ovat korkeat.
Lähetä tietoja Ethernet- tai TCP / IP-yhteyden avulla. Lähetä tietoja IDE / SCSI: n avulla

29) Luettele tärkeät kentät tai kielet, joita tietotekniikka käyttää

Tässä on muutama kenttä tai kieli, joita tietotekniikka käyttää:

  • Todennäköisyys sekä lineaarinen algebra
  • Koneoppiminen
  • Trendianalyysi ja regressio
  • Hive QL- ja SQL-tietokannat

30) Mikä on Big Data?

Se on suuri määrä strukturoitua ja jäsentämätöntä dataa, jota ei voida helposti käsitellä perinteisillä tallennusmenetelmillä. Datainsinöörit käyttävät Hadoopia suurten tietojen hallintaan.

31) Mikä on FIFO-aikataulutus?

Se on Hadoop-työn ajoitusalgoritmi. Tässä FIFO-aikataulutuksessa toimittaja valitsee työpaikat työjonosta, vanhin työ ensin.

32) Mainitse oletusporttinumerot, joissa tehtäväseuranta, NameNode ja työnseuranta suoritetaan Hadoopissa

Oletusporttinumerot, joilla tehtäväseuranta, NameNode ja työnseuranta suoritetaan Hadoopissa, ovat seuraavat:

  • Tehtäväseuranta toimii 50060-portilla
  • NameNode toimii 50070-portilla
  • Job Tracker toimii 50030-portissa

33) Estoskannerin poistaminen käytöstä HDFS-tietosolmussa

Poista estoskanneri käytöstä HDFS-tietosolmussa asettamalla dfs.datanode.scan.period.hours arvoksi 0.

34) Kuinka määritetään kahden solmun välinen etäisyys Hadoopissa?

Etäisyys on yhtä suuri kuin etäisyys lähimpiin solmuihin. Menetelmää getDistance () käytetään kahden solmun välisen etäisyyden laskemiseen.

35) Miksi käyttää hyödykelaitteistoa Hadoopissa?

Hyödykelaitteisto on helppo hankkia ja edullinen. Se on järjestelmä, joka on yhteensopiva Windowsin, MS-DOS: n tai Linuxin kanssa.

36) Määritä replikaatiokerroin HDFS: ssä

Replikointikerroin on järjestelmässä olevan tiedoston kopioiden kokonaismäärä.

37) Mitä tietoja NameNode-sovellukseen on tallennettu?

Namenode tallentaa HDFS: n metatiedot, kuten lohkotiedot ja nimiavaruustiedot.

38) Mitä tarkoitat telineiden tietoisuudella?

Haddop-klusterissa Namenode käyttää Datanode-koodia verkkoliikenteen parantamiseen lukiessaan tai kirjoittaessaan mitä tahansa lähimpään telineeseen lähempänä olevaa tiedostoa luku- tai kirjoituspyyntöä varten. Namenode ylläpitää jokaisen DataNode-telineen tunnusta kehystietojen saamiseksi. Tätä konseptia kutsutaan telineiden tietoiseksi Hadoopissa.

39) Mitkä ovat Secondary NameNode -toiminnot?

Seuraavat ovat Toissijaisen NimiNoden toiminnot:

  • FsImage, joka tallentaa kopion EditLog- ja FsImage-tiedostoista.
  • NameNode-kaatuminen: Jos NameNode kaatuu, toissijaisen NameNoden FsImage-ohjelmaa voidaan käyttää NameNode-järjestelmän luomiseen uudelleen.
  • Tarkistuskohta: Secondary NameNode käyttää sitä vahvistamaan, että HDFS: ssä ei ole tietoja vioittunut.
  • Päivitä: Se päivittää automaattisesti EditLog- ja FsImage-tiedostot. Se auttaa pitämään FsImage-tiedoston toissijaisessa nimi-solmussa päivitettynä.

40) Mitä tapahtuu, kun NameNode on poissa käytöstä ja käyttäjä lähettää uuden työn?

NameNode on yksi epäonnistumispiste Hadoopissa, joten käyttäjä ei voi lähettää uutta työtä ei voi suorittaa. Jos NameNode on alhaalla, työ saattaa epäonnistua, koska käyttäjän on odotettava NameNode-ohjelman käynnistymistä uudelleen ennen minkään työn suorittamista.

41) Mitkä ovat Hadoopin pelkistimen perusvaiheet?

Hadoopissa on kolme pelkistimen perusvaihetta:

1. Satunnaistoisto: Tässä Reducer kopioi tuloksen Mapperista.

2. Lajittelu: Lajittelussa Hadoop lajittelee syötteen Reduceriin samalla näppäimellä.

3. Pienennä: Tässä vaiheessa avaimeen liittyviä lähtöarvoja pienennetään tietojen yhdistämiseksi lopulliseen lähtöön.

42) Miksi Hadoop käyttää kontekstiobjektia?

Hadoop-kehys käyttää kontekstiobjektia Mapper-luokan kanssa vuorovaikutuksessa jäljellä olevan järjestelmän kanssa. Kontekstiobjekti saa järjestelmän kokoonpanotiedot ja työn konstruktoriinsa.

Käytämme kontekstiobjektia tietojen välittämiseen setup (), cleanup () ja map () -menetelmissä. Tämä esine antaa tärkeitä tietoja saataville karttatoimintojen aikana.

43) Määritä yhdistin Hadoopissa

Se on valinnainen askel kartan ja pienennyksen välillä. Yhdistäjä ottaa tuloksen Map-toiminnosta, luo avainarvoparit ja lähettää Hadoop Reducerille. Yhdistäjän tehtävä on tiivistää Mapin lopputulos yhteenvetotietueisiin samalla avaimella.

44) Mikä on HDFS: ssä oletusarvoinen replikointikerroin Mitä se osoittaa?

HDFS: ssä käytettävissä oleva oletuskopiointikerroin on kolme. Oletusreplikointikerroin osoittaa, että kutakin dataa on kolme kopiota.

45) Mitä tarkoitat Data Locality Hadoopissa?

Big Data -järjestelmässä datan koko on valtava, ja siksi ei ole järkevää siirtää tietoja verkon yli. Nyt Hadoop yrittää siirtää laskennan lähemmäksi dataa. Tällä tavalla data pysyy paikallisena tallennettuun sijaintiin.

46) Määritä Balancer HDFS: ssä

HDFS: ssä tasapainotin on järjestelmänvalvoja, jota hallintohenkilöstö käyttää tasapainottamaan dataa DataNodesissa ja siirtää lohkot ylikäytetyistä alikäytetyiksi solmuiksi.

47) Selitä vikasietotila HDFS: ssä

Se on vain lukutila NameNode-ryhmässä. Aluksi NameNode on Safemode-tilassa. Se estää kirjoittamisen tiedostojärjestelmään Safemodessa. Tällä hetkellä se kerää tietoja ja tilastoja kaikista DataNodeista.

48) Mikä on jaetun välimuistin merkitys Apache Hadoopissa?

Hadoopilla on hyödyllinen apuohjelmaominaisuus, ns. Hajautettu välimuisti, joka parantaa töiden suorituskykyä tallentamalla välimuistiin sovellusten käyttämät tiedostot. Sovellus voi määrittää välimuistille tiedoston JobConf-määrityksillä.

Hadoop-kehys tekee näistä tiedostoista kopion solmuille, jotka tehtävä on suoritettava. Tämä tehdään ennen tehtävän suorittamisen aloittamista. Hajautettu välimuisti tukee vain luku-tiedostojen sekä zip- ja purkkitiedostojen jakelua.

49) Mikä on metastore pesässä?

Se tallentaa skeeman sekä Hive-taulukon sijainnin.

Hive-taulukko määrittelee, yhdistämiset ja metatiedot, jotka tallennetaan Metastoreen. Tämä voidaan tallentaa JPOX: n tukemaan RDBMS: ään.

50) Mitä tarkoittaa SerDe pesässä?

SerDe on lyhyt nimi Serializerille tai Deserializerille. Hivessä SerDe sallii tietojen lukemisen taulukoista ja kirjoittamisen tiettyyn kenttään missä tahansa muodossa.

51) Luettele komponentit, jotka ovat käytettävissä Hive-tietomallissa

Hive-tietomallissa on seuraavat komponentit:

  • Taulukot
  • Väliseinät
  • Kauhat

52) Selitä pesän käyttö Hadoopin ekosysteemissä.

Hive tarjoaa käyttöliittymän Hadoop-ekosysteemiin tallennettujen tietojen hallintaan. Hiveä käytetään kartoittamiseen ja työskentelyyn HBase-taulukoiden kanssa. Hive-kyselyt muunnetaan MapReduce-töiksi, jotta voidaan piilottaa MapReduce-työpaikkojen luomiseen ja suorittamiseen liittyvä monimutkaisuus.

53) Hive tukee erilaisten monimutkaisten tietotyyppien / kokoelmien luetteloa

Hive tukee seuraavia monimutkaisia ​​tietotyyppejä:

  • Kartta
  • Rakenne
  • Taulukko
  • liitto

54) Selitä kuinka Hivessa olevaa .hiverc-tiedostoa käytetään?

Hivessa .hiverc on alustustiedosto. Tämä tiedosto ladataan alun perin, kun aloitamme komentoriviliittymän (CLI) Hivelle. Voimme asettaa parametrien alkuarvot .hiverc-tiedostoon.

55) Voiko Hiveen luoda useamman kuin yhden taulukon yhdelle datatiedostolle?

Kyllä, voimme luoda useamman kuin yhden taulukkomallin datatiedostolle. Hive tallentaa skeeman Hive Metastoreen. Tämän kaavion perusteella voimme noutaa samanlaisia ​​tuloksia samoista tiedoista.

56) Selitä erilaisia ​​SerDe-toteutuksia, jotka ovat käytettävissä Hivessa

Hiveen on saatavana monia SerDe-toteutuksia. Voit myös kirjoittaa oman mukautetun SerDe-toteutuksen. Seuraavassa on joitain tunnettuja SerDe-toteutuksia:

  • OpenCSVSerde
  • RegexSerDe
  • RajoitettuJSONSerDe
  • ByteStreamTypedSerDe

57) Luettelotaulukkoa tuottavat toiminnot, jotka ovat käytettävissä Hivessa

Seuraavassa on luettelo taulukkojen luontitoiminnoista:

  • Räjähtää (taulukko)
  • JSON_tuple ()
  • Pino()
  • Explode (kartta)

58) Mikä on vinossa oleva taulukko pesässä?

Vino taulukko on taulukko, joka sisältää sarakearvoja useammin. Kun määritämme Hivessa taulukon SKEWED luomisen aikana, vinot arvot kirjoitetaan erillisiin tiedostoihin ja loput arvot siirtyvät toiseen tiedostoon.

59) Luetteloi objektit, jotka on luotu luomalla käsky MySQL: ssä.

Luo lauseke MySQL: ssä luodut objektit ovat seuraavat:

  • Tietokanta
  • Indeksi
  • Pöytä
  • Käyttäjä
  • Menettely
  • Laukaista
  • Tapahtuma
  • Näytä
  • Toiminto

60) Kuinka nähdä tietokannan rakenne MySQL: ssä?

Voit käyttää tietokannan rakennetta MySQL: ssä

DESCRIBE-komento. Tämän komennon syntaksi on DESCRIBE-taulukon nimi ;.

61) Kuinka etsiä tiettyä merkkijonoa MySQL-taulukon sarakkeesta?

Etsi merkkijono MySQL-sarakkeesta regex-operaattorin avulla. Tässä voimme myös määritellä erilaisia ​​säännöllisen lausekkeen tyyppejä ja etsiä regexin käyttöä.

62) Selitä, kuinka data-analytiikka ja big data voivat lisätä yrityksen tuloja?

Seuraavassa on tapoja, joilla data-analytiikka ja big data voivat lisätä yrityksen tuloja:

  • Käytä dataa tehokkaasti varmistaaksesi liiketoiminnan kasvun.
  • Kasvata asiakkaan arvoa.
  • Analyyttinen kääntäminen henkilöstöennusteiden parantamiseksi.
  • Organisaatioiden tuotantokustannusten alentaminen.