50 parhaan tietojenkäsittelyhaastattelun kysymystä ja vastausta

Anonim

Seuraavassa on usein kysyttyjä kysymyksiä haastatteluissa aloittelijoille ja kokeneelle Data Scientistille.

1. Mikä on datatiede?

Data Science on algoritmien, työkalujen ja koneoppimistekniikan yhdistelmä, joka auttaa sinua löytämään yleisiä piilotettuja malleja annetuista raakatiedoista.

2. Mikä on logistinen regressio datatieteessä?

Logistista regressiota kutsutaan myös logit-malliksi. Se on menetelmä ennustaa binääritulos ennustemuuttujien lineaarisesta yhdistelmästä.

3. Nimeä kolme poikkeamien tyyppiä, joita voi esiintyä näytteenoton aikana

Näytteenottoprosessissa on kolmentyyppisiä esijännitteitä, jotka ovat:

  • Valintaperuste
  • Alle peittoalueella
  • Selviytymisen puolueellisuus

4. Keskustele päätöksentekopuun algoritmista

Päätöspuu on suosittu valvottu koneoppimisalgoritmi. Sitä käytetään pääasiassa regressioon ja luokitteluun. Sen avulla aineisto voidaan jakaa pienempiin osajoukoihin. Päätöspuu pystyy käsittelemään sekä kategorisia että numeerisia tietoja.

5. Mikä on Prior-todennäköisyys ja todennäköisyys?

Aikaisempi todennäköisyys on riippuvan muuttujan osuus tietojoukossa, kun taas todennäköisyys on todennäköisyys luokitella tietty tarkkailija jonkin muun muuttujan läsnä ollessa.

6. Selitä suosittelijajärjestelmät?

Se on tietojen suodatustekniikoiden alaluokka. Se auttaa sinua ennustamaan mieltymykset tai arviot, jotka käyttäjät todennäköisesti antavat tuotteelle.

7. Nimeä kolme haittaa lineaarisen mallin käytössä

Lineaarisen mallin kolme haittaa ovat:

  • Oletus virheiden lineaarisuudesta.
  • Et voi käyttää tätä mallia binäärisiin tai laskemiseen
  • On paljon yliasennettavia ongelmia, joita se ei voi ratkaista

8. Miksi sinun on suoritettava uudelleennäyte?

Uudelleennäyte tehdään alla annetuissa tapauksissa:

  • Arvioidaan näytetilastojen tarkkuus vetämällä satunnaisesti korvaamalla tietopisteen joukko tai käyttämällä saatavana olevan tiedon alajoukoina
  • Tarrojen korvaaminen datapisteissä suoritettaessa tarvittavia testejä
  • Vahvistetaan mallit käyttämällä satunnaisia ​​alajoukkoja

9. Luettele Pythonin kirjastot, joita käytetään tietojen analysointiin ja tieteellisiin laskelmiin.

  • SciPy
  • Pandat
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Mikä on tehoanalyysi?

Tehoanalyysi on olennainen osa kokeellista suunnittelua. Se auttaa sinua määrittämään otoskoko vaatii selvittämään tietyn koon vaikutuksen syystä, jolla on tietty varmuus. Sen avulla voit myös ottaa käyttöön tietyn todennäköisyyden otoskokorajoituksessa.

11. Selitä yhteistyösuodatus

Yhteistoiminnallinen suodatus, jota käytetään oikean mallin etsimiseen yhteistyössä näkökulmien, useiden tietolähteiden ja useiden agenttien avulla.

12. Mikä on puolueellisuus?

Bias on mallissasi käyttöön otettu virhe koneoppimisalgoritmin liian yksinkertaistamisen vuoksi. "Se voi johtaa sopimattomuuteen.

13. Keskustelkaa naiivista naiivi Bayesin algoritmissa?

Naivinen Bayesin algoritmimalli perustuu Bayesin lauseeseen. Se kuvaa tapahtuman todennäköisyyttä. Se perustuu ennakkotietämykseen olosuhteista, jotka saattavat liittyä kyseiseen tapahtumaan.

14. Mikä on lineaarinen regressio?

Lineaarinen regressio on tilastollinen ohjelmointimenetelmä, jossa muuttujan A pisteet ennustetaan toisen muuttujan B pisteistä. B: tä kutsutaan ennustemuuttujaksi ja A: ta kriteerimuuttujaksi.

15. Ilmoita odotetun arvon ja keskiarvon välinen ero

Niissä ei ole paljon eroja, mutta molempia termejä käytetään erilaisissa yhteyksissä. Keskiarvoon viitataan yleensä, kun keskustellaan todennäköisyysjakaumasta, kun taas odotettuun arvoon viitataan satunnaismuuttujan yhteydessä.

16. Mikä on A / B-testauksen tarkoitus?

AB-testaus, jota käytettiin satunnaiskokeiden suorittamiseen kahdella muuttujalla, A ja B. Tämän testausmenetelmän tavoitteena on löytää muutoksia verkkosivulle strategian lopputuloksen maksimoimiseksi tai lisäämiseksi.

17. Mitä Ensemble-oppiminen on?

Kokonaisuus on tapa yhdistää monipuolinen joukko oppijoita improvisoimaan mallin vakautta ja ennustavaa voimaa. Kahdenlaisia ​​Ensemble-oppimismenetelmiä ovat:

Laukku

Säkitysmenetelmä auttaa sinua toteuttamaan samanlaisia ​​oppijoita pienissä otospopulaatioissa. Se auttaa sinua tekemään lähemmät ennusteet.

Tehostaminen

Tehostaminen on iteratiivinen menetelmä, jonka avulla voit säätää havainnon painoa viimeisestä luokituksesta riippuen. Tehostaminen vähentää ennakkovirhettä ja auttaa rakentamaan vahvoja ennustavia malleja.

18. Selitä ominaisarvo ja ominaisvektori

Ominaisvektorit on tarkoitettu lineaaristen muunnosten ymmärtämiseen. Datatieteilijän on laskettava kovarianssimatriisin tai korrelaation ominaisvektorit. Ominaisarvot ovat suunnat pitkin tiettyjen lineaaristen muunnostoimien käyttöä puristamalla, kääntämällä tai venyttämällä.

19. Määritä termi ristivalidointi

Ristivalidointi on validointitekniikka sen arvioimiseksi, miten tilastollisen analyysin tulokset yleistyvät riippumattomalle aineistolle. Tätä menetelmää käytetään taustoissa, joissa tavoite ennustetaan, ja on arvioitava, kuinka tarkasti malli saavutetaan.

20. Selitä Data-analytiikkaprojektin vaiheet

Seuraavat ovat tärkeitä vaiheita analyysiprojektissa:

  • Ymmärtää liiketoiminnan ongelma
  • Tutki tietoja ja tutki niitä huolellisesti.
  • Valmista tiedot mallinnusta varten etsimällä puuttuvat arvot ja muuttamalla muuttujia.
  • Aloita mallin ajaminen ja analysoi Big Data -tulos.
  • Vahvista malli uudella tietojoukolla.
  • Toteuta malli ja seuraa tuloksia analysoidaksesi mallin suorituskykyä tiettynä ajanjaksona.

21. Keskustele keinotekoisista hermoverkoista

Keinotekoiset hermoverkot (ANN) ovat erityinen joukko algoritmeja, jotka ovat mullistaneet koneoppimisen. Se auttaa sinua sopeutumaan muuttuvan syötteen mukaan. Joten verkko tuottaa parhaan mahdollisen tuloksen suunnittelematta uudelleen lähtöehtoja.

22. Mikä on selkälevitys?

Selän eteneminen on hermoverkkokoulutuksen ydin. Se on menetelmä hermoverkon painojen virittämiseksi riippuen edellisessä aikakaudessa saadusta virhesuhteesta. Oikea viritys auttaa vähentämään virhetasoja ja tekemään mallista luotettavan lisäämällä sen yleistymistä.

23. Mikä on satunnainen metsä?

Satunnainen metsä on koneoppimismenetelmä, joka auttaa sinua suorittamaan kaikenlaisia ​​regressio- ja luokitustehtäviä. Sitä käytetään myös puuttuvien arvojen ja poikkeavien arvojen hoitamiseen.

24. Mikä on valinnan puolueellisuuden merkitys?

Valintapoikkeama tapahtuu, kun erityistä satunnaistamista ei saavuteta, kun yksilöitä tai ryhmiä tai analysoitavia tietoja valitaan. Se viittaa siihen, että annettu näyte ei edusta tarkalleen analysoitavaa populaatiota.

25. Mikä on K-tarkoittaa klusterointimenetelmää?

K-tarkoittaa klusterointia on tärkeä valvomaton oppimismenetelmä. Datan luokittelutekniikkaa käyttämällä tiettyä joukkoa klustereita kutsutaan K-klustereiksi. Se otetaan käyttöön ryhmittelyä varten tietojen samankaltaisuuden selvittämiseksi.

26. Selitä ero tiedetieteen ja data-analyysin välillä

Datatieteilijöiden on leikattava tietoja saadakseen arvokkaita oivalluksia, joita data-analyytikko voi soveltaa reaalimaailman liiketoimintaskenaarioihin. Suurin ero näiden kahden välillä on se, että datatieteilijöillä on enemmän teknistä tietoa kuin liike-analyytikoilla. Lisäksi he eivät tarvitse ymmärrystä tietojen visualisointiin tarvittavasta liiketoiminnasta.

27. Selitä p-arvo?

Kun teet hypoteesitestin tilastoissa, p-arvon avulla voit määrittää tulostesi vahvuuden. Se on numeerinen luku välillä 0 ja 1. Arvon perusteella se auttaa sinua osoittamaan tietyn tuloksen vahvuuden.

28. Määritä syväoppiminen

Syväoppiminen on koneoppimisen alatyyppi. Se koskee algoritmeja, jotka ovat innoittaneet keinotekoisia hermoverkkoja (ANN).

29. Selitä menetelmä tietojen keräämiseksi ja analysoimiseksi sosiaalisen median avulla sääolojen ennustamiseksi.

Voit kerätä sosiaalisen median tietoja Facebookin, Twitterin ja Instagramin sovellusliittymien avulla. Esimerkiksi tweeterille voimme rakentaa jokaisesta tweetistä ominaisuuden, kuten twiittattu päivämäärä, uudelleentwiittaukset, seuraajaluettelo jne. Sitten voit ennustaa sääolosuhteita monivaiheisella aikasarjamallilla.

30. Milloin datatieteen algoritmi on päivitettävä?

Sinun on päivitettävä algoritmi seuraavassa tilanteessa:

  • Haluat tietomallisi kehittyvän tietovirtoina infrastruktuuria käyttäen
  • Taustalla oleva tietolähde muuttuu

    Jos se ei ole paikallaan

31. Mikä on normaali jakautuminen

Normaalijakauma on sarja jatkuvaa muuttujaa, joka on levinnyt normaalikäyrän yli tai kellokäyrän muotoiseksi. Voit pitää sitä jatkuvana todennäköisyysjakautumana, josta on hyötyä tilastoissa. On hyödyllistä analysoida muuttujia ja niiden suhteita, kun käytämme normaalijakautumiskäyrää.

32. Mikä kieli sopii parhaiten tekstianalytiikkaan? R vai Python?

Python soveltuu paremmin tekstianalytiikkaan, koska se koostuu rikkaasta kirjastosta, joka tunnetaan nimellä pandat. Sen avulla voit käyttää korkean tason tietojen analysointityökaluja ja tietorakenteita, kun taas R ei tarjoa tätä ominaisuutta.

33. Selitä datatieteilijöiden tilastojen käytön edut

Tilastot auttavat datatieteilijää saamaan paremman kuvan asiakkaan odotuksista. Käyttämällä tilastomenetelmää Data Scientists voi saada tietoa kuluttajien kiinnostuksesta, käyttäytymisestä, sitoutumisesta, säilyttämisestä jne. Se auttaa myös rakentamaan tehokkaita tietomalleja tiettyjen johtopäätösten ja ennusteiden vahvistamiseksi.

34. Nimeä erityyppisiä syvällisiä oppimisen puitteita

  • Pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Kahvila
  • Ketju
  • Keras

35 Selitä Auto-Encoder

Automaattikooderit ovat oppimisverkostoja. Se auttaa muuntamaan tulot lähdöiksi, joissa on vähemmän virheitä. Tämä tarkoittaa, että tuloste on mahdollisimman lähellä syötettä.

36. Määritä Boltzmann-kone

Boltzmann-koneet ovat yksinkertainen oppimisalgoritmi. Se auttaa sinua löytämään ne ominaisuudet, jotka edustavat monimutkaisia ​​säännönmukaisuuksia harjoitustiedoissa. Tämän algoritmin avulla voit optimoida annetun ongelman painot ja määrän.

37. Selitä, miksi tietojen puhdistus on välttämätöntä ja mitä menetelmää käytät puhtaiden tietojen ylläpitoon

Likainen data johtaa usein väärään sisälle, mikä voi vahingoittaa minkä tahansa organisaation mahdollisuuksia. Esimerkiksi, jos haluat suorittaa kohdennetun markkinointikampanjan. Tietomme kertovat kuitenkin virheellisesti, että tietty tuote on kysytty kohdeyleisösi kanssa. kampanja epäonnistuu.

38. Mitä on vääristynyt jakelu ja tasainen jakelu?

Vino jakelu tapahtuu, kun tietoja jaetaan juovan jommallekummalle puolelle, kun taas tasainen jakauma tunnistetaan, kun data levitetään, on sama alue.

39. Kun staattisessa mallissa esiintyy alivarusteita?

Alivarustelu tapahtuu, kun tilastollinen malli tai koneoppimisalgoritmi ei kykene kaappaamaan tietojen taustalla olevaa suuntausta.

40. Mikä on vahvistava oppiminen?

Vahvistusoppiminen on oppimismekanismi siitä, miten tilanteet kartoitetaan toimiin. Lopputuloksen pitäisi auttaa sinua lisäämään binaarista palkkiosignaalia. Tässä menetelmässä oppijalle ei kerrotaan, mikä toimenpide on tehtävä, vaan hänen on löydettävä, mikä toiminta tarjoaa enimmäispalkinnon. Koska tämä menetelmä perustuu palkitsemis- / rangaistusmekanismiin.

41. Nimeä yleisesti käytetyt algoritmit.

Neljä datatieteilijän yleisimmin käyttämää algoritmia ovat:

  • Lineaarinen regressio
  • Logistinen regressio
  • Satunnainen metsä
  • KNN

42. Mikä on tarkkuus?

Tarkkuus on yleisimmin käytetty virhemittari n luokitusmekanismi. Sen alue on 0-1, jossa 1 edustaa 100%

43. Mikä on yksimuuttujaanalyysi?

Analyysi, jota ei käytetä mihinkään attribuuttiin kerrallaan, tunnetaan yksimuuttuja-analyysinä. Boxplot on laajalti käytetty, yksimuuttujainen malli.

44. Kuinka voitat havaintojesi haasteet?

Osoittaakseni johtajuuden ja kunnioittaen erilaisia ​​vaihtoehtoja, jotta voin voittaa löytämäni haasteet, on kannustettava keskusteluun.

45. Selitä klusterinäytteenottotekniikka datatieteessä

Klusterinäytteenottomenetelmää käytetään, kun kohdepopulaation jakautuminen on haastavaa eikä yksinkertaista satunnaisotantaa voida soveltaa.

46. ​​Ilmoita vahvistusjoukon ja testisarjan välinen ero

Vahvistusjoukko, jota pidetään enimmäkseen osana harjoitusjoukkoa, koska sitä käytetään parametrien valintaan, mikä auttaa sinua välttämään rakennettavan mallin ylikuormitusta.

Testisarjaa käytetään koulutetun koneoppimismallin suorituskyvyn testaamiseen tai arviointiin.

47. Selitä termi Binomial Probability Formula?

"Binomijakauma sisältää kaikkien mahdollisten onnistumisten todennäköisyydet N-kokeissa riippumattomille tapahtumille, joiden todennäköisyys on π."

48. Mikä on palautus?

Palautus on todellisen positiivisen määrän suhde todelliseen positiiviseen koroon. Se vaihtelee 0: sta 1: een.

49. Keskustele normaalijakaumasta

Normaalijakauma jakautuu tasaisesti sinänsä keskiarvo, mediaani ja tila ovat samat.

50. Kuinka voit valita tärkeitä muuttujia työskennellessäsi tietojoukon parissa? Selittää

Voit käyttää seuraavia muuttujanvalintamenetelmiä:

  • Poista korreloivat muuttujat ennen tärkeiden muuttujien valitsemista
  • Käytä lineaarista regressiota ja valitse muuttujat, jotka riippuvat tästä p-arvosta.
  • Käytä taaksepäin-, eteenpäin- ja vaiheittaista valintaa
  • Käytä Xgboost-, Random Forest- ja plot-muuttujan tärkeyskaaviota.
  • Mittaa tietyn voitto tietylle ominaisuusjoukolle ja valitse ylin ominaisuus vastaavasti.

51. Onko mahdollista kaapata korrelaatio jatkuvan ja kategorisen muuttujan välillä?

Kyllä, voimme käyttää kovarianssitekniikan analyysiä jatkuvan ja kategorisen muuttujan välisen yhteyden kaappaamiseen.

52. Kategorisen muuttujan käsitteleminen jatkuvana muuttujana johtaisi parempaan ennustemalliin?

Kyllä, kategoriarvoa tulisi pitää jatkuvana muuttujana vain, kun muuttuja on luonteeltaan järjestysnumero. Joten se on parempi ennustava malli.