60 parhaan Hadoop & MapReduce haastattelukysymykset & Vastaukset

Lataa PDF

Seuraavat ovat usein kysyttyjä kysymyksiä haastatteluissa aloittelijoille ja kokeneille kehittäjille.

1) Mikä on Hadoop Map Reduce?

Hadoop MapReduce -kehystä käytetään suurten tietojoukkojen käsittelyyn rinnakkain Hadoop-klusterin yli. Data-analyysi käyttää kaksivaiheista karttaa ja vähentää prosessia.

2) Kuinka Hadoop MapReduce toimii?

MapReducessa se laskee karttavaiheen aikana sanat jokaisessa asiakirjassa, kun taas vähennysvaiheessa se kootaan tiedot koko kokoelman kattavan asiakirjan mukaan. Karttavaiheen aikana syötetyt tiedot jaetaan analyyseihin jakoina Hadoop-kehyksen yli kulkevien karttatehtävien avulla.

3) Selitä, mitä sekoittaminen MapReducessa on?

Prosessi, jolla järjestelmä suorittaa lajittelun ja siirtää kartan lähdöt pienentäjälle sisääntulona, tunnetaan sekoituksena

4) Selitä, mikä jaettu välimuisti on MapReduce Frameworkissa?

Hajautettu välimuisti on tärkeä ominaisuus, jonka tarjoaa MapReduce-kehys. Kun haluat jakaa joitain tiedostoja kaikkien Hadoop-klusterin solmujen välillä, käytetään hajautettua välimuistia. Tiedostot voivat olla suoritettavia jar-tiedostoja tai yksinkertaisia ominaisuuksia sisältävä tiedosto.

5) Selitä, mikä on NameNode Hadoopissa?

NameNode in Hadoop on solmu, johon Hadoop tallentaa kaikki tiedoston sijaintitiedot HDFS: ään (Hadoop Distributed File System). Toisin sanoen, NameNode on HDFS-tiedostojärjestelmän keskipiste. Se pitää kirjaa kaikista tiedostojärjestelmän tiedostoista ja seuraa tiedostotietoja klusterissa tai useissa koneissa

6) Selitä, mikä on JobTracker Hadoopissa? Mitä toimia Hadoop seuraa?

Hadoopissa MapReduce-töiden lähettämiseen ja seuraamiseen käytetään JobTrackeria. Työn seuranta suoritetaan omalla JVM-prosessillaan

Job Tracker suorittaa seuraavat toimet Hadoopissa

Asiakassovellus lähettää työpaikat työnseurantaan
JobTracker on yhteydessä Nimi-tilaan tietojen sijainnin määrittämiseksi
Lähellä tietoja tai käytettävissä olevilla paikoilla JobTracker etsii TaskTracker-solmut
Valituilla TaskTracker-solmuilla se lähettää työn
Kun tehtävä epäonnistuu, Job tracker ilmoittaa ja päättää mitä tehdä sitten.
JobTracker valvoo TaskTracker-solmuja

7) Selitä, mikä on syke HDFS: ssä?

Sydämenlyönti viittaa signaaliin, jota käytetään datasolmun ja Nimi-solmun välillä sekä tehtävän seurannan ja työn seurannan välillä, jos nimisolmu tai työn seuranta ei reagoi signaaliin, datasolmun tai tehtävän katsotaan olevan joitain ongelmia seuranta

8) Selitä, mitä yhdistelijöitä on ja milloin sinun tulisi käyttää yhdistelmää MapReduce Jobissa?

MapReduce-ohjelman tehokkuuden lisäämiseksi käytetään yhdistimiä. Tietomäärää voidaan vähentää yhdistimen avulla, joka on siirrettävä vähennysventtiileihin. Jos suoritettu toiminto on kommutatiivista ja assosiatiivista, voit käyttää pelkistinkoodia yhdistelmänä. Yhdistimen suorittamista ei taata Hadoopissa

9) Mitä tapahtuu, kun tietosolmu epäonnistuu?

Kun tietosolmu epäonnistuu

Jobtracker ja namenode havaitsevat vian
Epäonnistuneessa solmussa kaikki tehtävät ajoitetaan uudelleen
Namenode kopioi käyttäjän tiedot toiseen solmuun

10) Selitä, mikä on spekulatiivinen toteutus?

Hadoopissa spekulatiivisen suorituksen aikana käynnistetään tietty määrä päällekkäisiä tehtäviä. Eri orjasolmussa useita kopioita samasta kartasta tai pienennetystä tehtävästä voidaan suorittaa spekulatiivisella suorituksella. Yksinkertaisesti sanottuna, jos tietyllä asemalla kestää kauan tehtävän suorittaminen, Hadoop luo kaksoiskappaleen tehtävä toiselle levylle. Levy, joka viimeistelee tehtävän ensin, säilytetään, ja levyt, jotka eivät päädy ensin, tapetaan.

11) Selitä, mitkä ovat Mapperin perusparametrit?

Mapperin perusparametrit ovat

Pitkä kirjoitettava ja teksti
Teksti ja kirjoitettava

12) Selitä mikä on MapReduce-osioijan tehtävä?

MapReduce-osioijan tehtävänä on varmistaa, että yhden ainoan avaimen arvo menee samalle vähennysventtiilille, mikä lopulta auttaa kartan ulostuloa tasaisesti jakajien yli

13) Selitä, mikä on ero tulonjaon ja HDFS-lohkon välillä?

Tietojen looginen jakaminen tunnetaan nimellä Split, kun taas fyysinen tietojen jakaminen tunnetaan nimellä HDFS Block

14) Selitä mitä tapahtuu tekstimuodossa?

Tekstinsyöttömuodossa jokainen rivi tekstitiedostossa on tietue. Arvo on rivin sisältö, kun taas Key on rivin tavuesiirto. Esimerkiksi Key: longWritable, Arvo: text

15) Mainitse mitkä ovat tärkeimmät kokoonpanoparametrit, jotka käyttäjän on määritettävä MapReduce Jobin suorittamiseksi?

MapReduce-kehyksen käyttäjän on määritettävä

Jobin syöttöpaikat hajautetussa tiedostojärjestelmässä
Työn lähtöpaikka hajautetussa tiedostojärjestelmässä
Syöttömuoto
Tulostuksen muoto
Luokka, joka sisältää karttatoiminnon
Luokka, joka sisältää pelkistystoiminnon
JAR-tiedosto, joka sisältää kartoitin-, vähennyslaskuri- ja ohjainluokat

16) Selitä, mikä on WebDAV Hadoopissa?

Tiedostojen muokkaamisen ja päivittämisen tukemiseksi WebDAV on joukko HTTP-laajennuksia. Useimmissa käyttöjärjestelmissä WebDAV-jakot voidaan liittää tiedostojärjestelmiksi, joten HDFS: ään on mahdollista päästä tavallisena tiedostojärjestelmänä altistamalla HDFS WebDAV: n kautta.

17) Selitä, mikä on Sqoop Hadoopissa?

Tietojen siirtämiseksi relaatiotietokannan hallinnan (RDBMS) ja Hadoop HDFS: n välillä käytetään työkalua, joka tunnetaan nimellä Sqoop. Sqoopin avulla tietoja voidaan siirtää RDMS: stä, kuten MySQL: stä tai Oraclesta, HDFS: ään sekä viedä tietoja HDFS-tiedostosta RDBMS: ään

18) Selitä, kuinka JobTracker ajoittaa tehtävän?

Tehtäväseuraaja lähettää sykeviestejä Jobtrackerille yleensä muutaman minuutin välein varmistaakseen, että JobTracker on aktiivinen ja toimiva. Viesti kertoo JobTrackerille myös käytettävissä olevien paikkojen lukumäärän, joten JobTracker voi pysyä ajan tasalla siitä, missä klusterityö voidaan delegoida

19) Selitä, mikä on Sequencefileinputformat?

Sequencefileinputformatia käytetään tiedostojen lukemiseen peräkkäin. Se on erityinen pakattu binaaritiedostomuoto, joka on optimoitu siirtämään tietoja yhden MapReduce-työn lähdön välillä jonkin muun MapReduce-työn tuloon.

20) Selitä, mitä conf.setMapper Class tekee?

Conf.setMapperclass asettaa mapper-luokan ja kaikki karttatyöhön liittyvät asiat, kuten datan lukemisen ja avainarvoparin luomisen mapperista

21) Selitä, mikä on Hadoop?

Se on avoimen lähdekoodin ohjelmistokehys tietojen tallentamiseksi ja sovellusten ajamiseksi hyödykelaitteistoklustereissa. Se tarjoaa valtavan prosessointitehon ja valtavan tallennustilan kaikenlaisille tiedoille.

22) Mainitse, mikä on ero RDBMS: n ja Hadoopin välillä?

RDBMS	Hadoop
RDBMS on relaatiotietokantojen hallintajärjestelmä	Hadoop on solmuihin perustuva tasainen rakenne
Sitä käytettiin OLTP-käsittelyyn, kun taas Hadoop	Sitä käytetään tällä hetkellä analyyttiseen ja suurten tietojen käsittelyyn
RDBMS: ssä tietokantaryhmä käyttää samoja tiedostoja, jotka on tallennettu jaettuun tallennustilaan	Hadoopissa tallennustiedot voidaan tallentaa itsenäisesti kuhunkin käsittelysolmuun.
Sinun on esikäsiteltävä tiedot ennen niiden tallentamista	tietoja ei tarvitse esikäsitellä ennen niiden tallentamista

23) Mainitaanko Hadoopin ydinkomponentit?

Hadoop-ydinkomponentteihin kuuluvat

HDFS
MapReduce

24) Mikä on NameNode Hadoopissa?

NameNode Hadoopissa on paikka, jossa Hadoop tallentaa kaikki tiedoston sijaintitiedot HDFS: ään. Se on pääsolmu, jolla työnseurain toimii, ja joka koostuu metatiedoista.

25) Mainitse mitä datakomponentteja Hadoop käyttää?

Hadoopin käyttämät datakomponentit ovat

Sika
Pesä

26) Mainitse mikä on Hadoopin käyttämä tietovarastokomponentti?

Hadoopin käyttämä tietovarastokomponentti on HBase.

27) Mainitse mitkä ovat yleisimmät Hadoopissa määritellyt syöttömuodot?

Hadoopissa määritellyt yleisimmät syöttömuodot ovat;

TextInputFormat
KeyValueInputFormat
SequenceFileInputFormat

28) Mikä on Hadoopissa InputSplit?

Se jakaa syötetiedostot paloiksi ja määrittää jokaisen jaon kartoittajaan käsittelyä varten.

29) Kuinka kirjoitat Hadoop-työhön mukautetun osion?

Kirjoitat mukautetun osion Hadoop-työhön ja seuraat seuraavaa polkua

Luo uusi luokka, joka laajentaa Partitioner-luokkaa
Ohita menetelmä getPartition
MapReducea suorittavassa kääreessä
Lisää mukautettu osioija työhön käyttämällä menetelmäjoukkoa Partitioner Class tai - lisää mukautettu osioija työhön määritystiedostona

30) Voiko Hadoopin työpaikkaa muuttaa luotavien kartoittajien määrää?

Ei, luotavien kartoittajien määrää ei ole mahdollista muuttaa. Kartoittajien määrä määräytyy syöttöjakaumien lukumäärän mukaan.

31) Selitä, mikä on sekvenssitiedosto Hadoopissa?

Binaaristen avain / arvo-parien tallentamiseen käytetään sekvenssitiedostoa. Toisin kuin tavallinen pakattu tiedosto, sekvenssitiedosto tukee jakamista, vaikka tiedoston sisällä olevat tiedot pakattaisiin.

32) Kun Namenode on poissa käytöstä, mitä tapahtuu seurannalle?

Namenode on HDFS: n ainoa vikapiste, joten kun Namenode on alaspäin, klusterisi lähtee.

33) Selitä kuinka indeksointi HDFS: ssä tapahtuu?

Hadoopilla on ainutlaatuinen tapa indeksoida. Kun tiedot on tallennettu lohkokoon mukaan, HDFS tallentaa edelleen viimeisen osan tiedoista, joissa sanotaan, missä datan seuraava osa tulee olemaan.

34) Selitä, onko tiedostoja mahdollista etsiä jokerimerkkien avulla?

Kyllä, tiedostoja on mahdollista etsiä jokerimerkkien avulla.

35) Luettele Hadoopin kolme määritystiedostoa?

Kolme määritystiedostoa ovat

core-site.xml
mapred-site.xml
hdfs-site.xml

36) Selitä, kuinka voit tarkistaa, toimiiko Namenode vieressä käyttämällä jps-komentoa?

Voit käyttää jps-komentoa sen lisäksi, että voit tarkistaa, toimivatko Namenode-toiminnot

/etc/init.d/hadoop-0.20-namenode-tila.

37) Selitä, mikä on "kartta" ja mikä on "vähennysventtiili" Hadoopissa?

Hadoopissa kartta on vaihe HDFS-kyselyjen ratkaisemisessa. Kartta lukee tietoja syöttöpaikasta ja antaa avaimen arvo-parin syöttötyypin mukaan.

Hadoopissa vähennysventtiili kerää kartoittajan tuottaman tuotoksen, käsittelee sen ja luo oman lopullisen tuotoksen.

38) Mikä tiedosto Hadoopissa ohjaa raportointia Hadoopissa?

Hadoopissa hadoop-metrics.properties-tiedosto ohjaa raportointia.

39) Hadoop-luettelon käyttämistä varten tarvitaan verkon vaatimukset?

Hadoopin käyttöä varten luettelo verkkovaatimuksista on:

Salasanaton SSH-yhteys
Secure Shell (SSH) palvelinprosessien käynnistämistä varten

40) Mainitse mikä on telineiden tietoisuus?

Räkkitietoisuus on tapa, jolla namenode määrittää lohkojen sijoittamisen telineiden määritelmien perusteella.

41) Selitä mikä on tehtäväseuranta Hadoopissa?

Hadoopin tehtäväseuranta on klusterin orjasolmupäällikkö, joka hyväksyy JobTrackerin tehtävät. Se lähettää myös sykeilmoitukset JobTrackerille muutaman minuutin välein vahvistamaan, että JobTracker on edelleen elossa.

42) Mainitse mitkä demonit juoksevat pääsolmulla ja orjasolmuilla?

Pääsolmulla suoritettavat demonit ovat "NameNode"
Kullakin orjasolmulla suoritettavat demonit ovat "Tehtävänseuranta" ja "Data"

43) Selitä, miten voit debugata Hadoop-koodia?

Suosittuja menetelmiä Hadoop-koodin virheenkorjaukseen ovat:

Käyttämällä Hadoop-kehyksen tarjoamaa verkkoliittymää
Käyttämällä laskureita

44) Selitä, mikä on tallennus- ja laskennasolmut?

Tallennussolmu on kone tai tietokone, johon tiedostojärjestelmäsi tallentaa käsittelydataa
Laskusolmu on tietokone tai kone, jossa todellinen liiketoimintalogiikkasi suoritetaan.

45) Mainitse mikä on kontekstiobjektin käyttö?

Kontekstiobjektin avulla kartoittaja voi olla vuorovaikutuksessa muun Hadoopin kanssa

järjestelmään. Se sisältää työn määritystiedot sekä rajapinnat, jotka mahdollistavat työn lähettämisen.

46) Mainitse mikä on seuraava vaihe Mapperin tai MapTaskin jälkeen?

Seuraava askel Mapperin tai MapTaskin jälkeen on, että Mapperin tulos lajitellaan ja ulostulolle luodaan osiot.

47) Mainitse mikä on oletusosoittajien lukumäärä Hadoopissa?

Hadoopissa oletusosioija on “Hash” -osioija.

48) Selitä mikä on RecordReaderin tarkoitus Hadoopissa?

Hadoopissa RecordReader lataa tiedot lähteestään ja muuntaa ne (avain, arvo) pareiksi, jotka sopivat Mapperin lukemiseen.

49) Selitä, miten data jaetaan ennen sen lähettämistä vähennysventtiilille, jos Hadoopissa ei ole määritetty mukautettua osiota?

Jos Hadoopissa ei ole määritetty mukautettua osioijaa, oletusosioija laskee avaimen hash-arvon ja määrittää osion tuloksen perusteella.

50) Selitä, mitä tapahtuu, kun Hadoop synnytti 50 tehtävää työhön ja yksi tehtävä epäonnistui?

Se käynnistää tehtävän uudelleen jollakin muulla TaskTrackerillä, jos tehtävä epäonnistuu yli määritetyn rajan.

51) Mainitse mikä on paras tapa kopioida tiedostoja HDFS-klustereiden välillä?

Paras tapa kopioida tiedostoja HDFS-klustereiden välillä on käyttää useita solmuja ja distcp-komentoa, joten työmäärä on jaettu.

52) Mainitse, mikä on ero HDFS: n ja NAS: n välillä?

HDFS-datalohkot jaetaan klusterin kaikkien koneiden paikallisille asemille, kun taas NAS-tiedot tallennetaan erilliselle laitteistolle.

53) Mainitse kuinka Hadoop eroaa muista tietojenkäsittelytyökaluista?

Hadoopissa voit lisätä tai vähentää kartoittajien määrää huolimatta käsiteltävän datan määrästä.

54) Mainitse mitä työtä konf-luokka tekee?

Job conf -luokka erottaa eri klusterin käynnissä olevat työt. Se tekee työn tason asetukset, kuten työn julistamisen todellisessa ympäristössä.

55) Mainitse mikä on Hadoop MapReduce -sovellusliittymäsopimus avain- ja arvoluokalle?

Avain- ja arvoluokalle on kaksi Hadoop MapReduce -sovellusliittymäsopimusta

Arvon on määritettävä org.apache.hadoop.io.Writable-käyttöliittymä
Avaimen on määritettävä org.apache.hadoop.io.WritableComparable-käyttöliittymä

56) Mainitse mitkä ovat kolme tilaa, joissa Hadoopia voidaan käyttää?

Kolme tilaa, joissa Hadoopia voidaan käyttää, ovat

Pseudo-hajautettu tila
Erillinen (paikallinen) tila
Täysin jaettu tila

57) Mainitse mitä tekstinsyöttömuoto tekee?

Tekstinsyöttömuoto luo riviobjektin, joka on heksadesimaaliluku. Arvoa pidetään kokonaisena rivitekstinä, kun taas avainta pidetään viivaobjektina. Kartoittaja saa arvon teksti-parametrina, kun taas avain parametrina pitkä kirjoitettava.

58) Mainitse kuinka monta InputSplitsia Hadoop Framework tekee?

Hadoop tekee 5 jakoa

1 jako 64K-tiedostoille
2 jakoa 65 megatavun tiedostoille
2 jakoa 127 Mt tiedostoille

59) Mainitse mikä on jaettu välimuisti Hadoopissa?

Hadoopin jaettu välimuisti on MapReduce Frameworkin tarjoama palvelu. Työn suoritushetkellä sitä käytetään välimuistitiedostoon. Kehys kopioi tarvittavat tiedostot orjasolmuun ennen minkä tahansa tehtävän suorittamista kyseisessä solmussa.

60) Selitä, miten Hadoop Classpathilla on tärkeä rooli pysähtyessä tai aloitettaessa Hadoop-demoneissa?

Classpath koostuu luettelosta hakemistoista, jotka sisältävät jar-tiedostoja demonien pysäyttämiseksi tai käynnistämiseksi.