Mikä on R-ohjelmointikieli? Johdanto & R: n perusteet

Sisällysluettelo:

Anonim

Mikä on R-ohjelmisto?

R on Ross Ihakan ja Robert Gentlemanin vuonna 1993 kehittämä ohjelmointikieli ja ilmainen ohjelmisto. R: llä on laaja luettelo tilastollisista ja graafisista menetelmistä. Se sisältää koneoppimisalgoritmit, lineaarisen regression, aikasarjat, tilastollisen päättelyn muutamia mainitakseni. Suurin osa R-kirjastoista on kirjoitettu R-kirjaimella, mutta raskaisiin laskennallisiin tehtäviin suositellaan C-, C ++ - ja Fortran-koodeja.

R: n ei ole uskonut vain akateeminen, mutta monet suuret yritykset käyttävät myös R-ohjelmointikieliä, mukaan lukien Uber, Google, Airbnb, Facebook ja niin edelleen.

Data-analyysi R: n kanssa tehdään sarjana; tulosten ohjelmointi, muuntaminen, löytäminen, mallintaminen ja välittäminen

  • Ohjelma : R on selkeä ja helppokäyttöinen ohjelmointityökalu
  • Transform : R koostuu kirjastokokoelmasta, joka on suunniteltu nimenomaan tietojenkäsittelyä varten
  • Löydä : Tutki tietoja, tarkenna hypoteesi ja analysoi ne
  • Malli : R tarjoaa laajan valikoiman työkaluja oikean mallin sieppaamiseksi tiedoillesi
  • Kommunikoi : Integroi koodit, kaaviot ja lähdöt raporttiin R Markdownin kanssa tai rakenna kiiltäviä sovelluksia jakamaan maailman kanssa

Tässä esittelyoppaassa opit R: n

  • Mihin R: ää käytetään?
  • R teollisuuden mukaan
  • R-paketti
  • Kommunikoi R: n kanssa
  • Miksi käyttää R: tä?
  • Pitäisikö sinun valita R?
  • Onko R vaikea?

Mihin R: ää käytetään?

  • Tilastollinen päätelmä
  • Tietojen analysointi
  • Koneoppimisalgoritmi

R teollisuuden mukaan

Jos hajotamme R: n käytön teollisuudessa, näemme, että tutkijat ovat etusijalla. R on kieli, jolla tilastoidaan. R on terveydenhuollon ensimmäinen valinta, jota seuraavat hallitus ja konsultointi.

R-paketti

R: n ensisijainen käyttö on ja tulee olemaan aina, tilastot, visualisointi ja koneoppiminen. Alla oleva kuva osoittaa, mikä R-paketti sai eniten kysymyksiä Stack Overflow -sovelluksessa. Kymmenen parhaan joukossa suurin osa niistä liittyy datatieteilijän työnkulkuun: tietojen valmisteluun ja tulosten välittämiseen.

Kaikki R: n kirjastot, melkein 12 kt, on tallennettu CRAN: iin. CRAN on ilmainen ja avoin lähdekoodi. Voit ladata ja käyttää lukuisia kirjastoja koneoppimisen tai aikasarjaanalyysin suorittamiseen.

Kommunikoi R: n kanssa

R: llä on useita tapoja esitellä ja jakaa työtä joko markdown-asiakirjan tai kiiltävän sovelluksen kautta. Kaikki voidaan isännöidä Rpubissa, GitHubissa tai yrityksen verkkosivustolla.

Alla on esimerkki Rpubissa isännöitystä esityksestä

Rstudio hyväksyy merkinnät asiakirjan kirjoittamiseen. Voit viedä asiakirjat eri muodoissa:

  • Asiakirja:
    • HTML
    • PDF / lateksi
    • Sana
  • Esitys
    • HTML
    • PDF-palkki

Rstudiossa on loistava työkalu luoda sovellus helposti. Alla on esimerkki sovelluksesta, jossa on Maailmanpankin tiedot.

Miksi käyttää R: tä?

Datatiede muokkaa tapaa, jolla yritykset harjoittavat liiketoimintaansa. Epäilemättä poissaolo tekoälystä ja koneesta johtaa yrityksen epäonnistumiseen. Suuri kysymys on, mitä työkalua / kieltä sinun tulisi käyttää?

Ne ovat markkinoilla paljon työkaluja tietojen analysointiin. Uuden kielen oppiminen vaatii jonkin verran aikaa. Alla oleva kuva kuvaa oppimiskäyrää verrattuna kielen tarjoamaan liiketoimintakykyyn. Negatiivinen suhde tarkoittaa, että ilmaista lounasta ei ole. Jos haluat antaa parhaan käsityksen tiedoista, sinun on käytettävä aikaa oppimaan sopiva työkalu, joka on R.

Kaavion vasemmassa yläkulmassa näet Excelin ja PowerBI: n. Nämä kaksi työkalua on helppo oppia, mutta eivät tarjoa erinomaista liiketoimintakykyä etenkään mallinnuksen kannalta. Keskellä näet Python ja SAS. SAS on oma työkalu yritystilastollisen analyysin suorittamiseen, mutta se ei ole ilmainen. SAS on napsauta ja suorita -ohjelma. Python on kuitenkin kieli, jolla on yksitoikkoinen oppimiskäyrä. Python on loistava työkalu koneoppimisen ja tekoälyn käyttöönottoon, mutta sillä ei ole viestintäominaisuuksia. R on identtisen oppimiskäyrän avulla hyvä kompromissi toteutuksen ja data-analyysin välillä.

Kun on kyse tietojen visualisoinnista (DataViz), olet todennäköisesti kuullut Tableausta. Tableau on epäilemättä loistava työkalu kuvioiden löytämiseen kaavioiden avulla. Lisäksi tabletin oppiminen ei ole aikaa vievää. Yksi iso ongelma tietojen visualisoinnissa on, että et pääse koskaan löytämään mallia tai luomaan vain tarpeettomia kaavioita. Tableau on hyvä työkalu tietojen tai liiketoimintatiedon nopeaan visualisointiin. Tilastojen ja päätöksentekovälineiden osalta R on sopivampi.

Stack Overflow on suuri yhteisö ohjelmointikielille. Jos sinulla on koodausongelma tai sinun on ymmärrettävä malli, Stack Overflow on täällä apuna. Vuoden aikana kysymysnäkymien prosenttiosuus on kasvanut R: llä voimakkaasti muihin kieliin verrattuna. Tämä suuntaus on tietysti voimakkaasti korreloitu datatieteen kukoistavan iän kanssa, mutta se heijastaa R-kielen kysyntää datatieteelle.

Datatieteessä on kaksi välinettä kilpailevaa työkalua. R ja Python ovat todennäköisesti ohjelmointikieli, joka määrittelee datatieteen.

Pitäisikö sinun valita R?

Datatieteilijä voi käyttää kahta erinomaista työkalua: R ja Python. Sinulla ei ehkä ole aikaa oppia molempia, varsinkin jos aloitat oppimisen datatieteen. Oppia tilastollinen mallinnus ja algoritmion paljon tärkeämpää kuin oppia ohjelmointikieli. Ohjelmointikieli on työkalu löytösi laskemiseen ja kommunikointiin. Tärkein tehtävä tietojenkäsittelyssä on tapa, jolla käsittelet tietoja: tuonti, puhdistus, valmistelu, ominaisuuksien suunnittelu, ominaisuuksien valinta. Tämän pitäisi olla ensisijainen painopiste. Jos yrität oppia R: tä ja Pythonia samanaikaisesti ilman vankkaa taustaa tilastoissa, se on yksinkertaisesti tyhmä. Datatieteilijä ei ole ohjelmoija. Heidän tehtävänsä on ymmärtää tietoja, manipuloida niitä ja paljastaa paras lähestymistapa. Jos ajattelet mitä kieltä haluat oppia, katsotaanpa, mikä kieli on sinulle sopivin.

Datatieteen pääyleisö on liike-elämän ammattilainen. Liiketoiminnassa yksi suuri merkitys on viestintä. On monia tapoja kommunikoida: raportti, verkkosovellus, hallintapaneeli. Tarvitset työkalun, joka tekee kaiken tämän yhdessä.

Onko R vaikea?

Vuosia sitten R oli vaikea hallita kieltä. Kieli oli hämmentävä, eikä se ollut niin jäsennelty kuin muut ohjelmointityökalut. Tämän tärkeän ongelman ratkaisemiseksi Hadley Wickham kehitti kokoelman paketteja nimeltä tidyverse. Pelisääntö muuttui parhaaksi. Tietojen käsittelystä tulee triviaalia ja intuitiivista. Kaavion luominen ei ollut enää niin vaikeaa.

Parhaat koneoppimisen algoritmit voidaan toteuttaa R.: n avulla. Paketit, kuten Keras ja TensorFlow, mahdollistavat huippuluokan koneoppimistekniikan. R: llä on myös paketti Xgboostin suorittamiseen, joka on paras algoritmi Kaggle-kilpailulle.

R voi kommunikoida toisen kielen kanssa. R: ssä on mahdollista soittaa Pythonille, Java: lle, C ++: lle. Suurten datojen maailma on myös R.: n käytettävissä. Voit yhdistää R: n erilaisiin tietokantoihin, kuten Spark tai Hadoop.

Lopuksi R on kehittynyt ja sallinut rinnakkaisoperaation nopeuttaa laskentaa. Itse asiassa R: tä kritisoitiin vain yhden suorittimen käytöstä kerrallaan. Rinnakkaispaketin avulla voit suorittaa tehtäviä koneen eri ytimissä.

Yhteenveto

Pähkinänkuoressa R on loistava työkalu tietojen tutkimiseen ja tutkimiseen. Kehittynyt analyysi, kuten klusterointi, korrelaatio ja datan vähentäminen, tehdään R.: n kanssa. Tämä on tärkein osa, ilman hyvää ominaisuusrakennetta ja mallia koneoppimisen käyttöönotto ei tuota mielekkäitä tuloksia.