R Kokoomatehtävä: Yhteenveto & Group_by () Esimerkki

Muuttujan yhteenveto on tärkeä, jotta sinulla on käsitys tiedoista. Vaikka muuttujan yhteenveto ryhmittäin antaa parempaa tietoa tietojen jakautumisesta.

Tässä opetusohjelmassa opit kuinka tiivistää tietojoukko ryhmittäin dplyr-kirjaston kanssa.

Tässä opetusohjelmassa opit

Yhteenveto ()
Group_by vs. no group_by
Toiminto yhteenvedossa ()
Perustoiminto
Tilaus
Summa
Keskihajonta
Pienin ja suurin
Kreivi
Ensimmäinen ja viimeinen
n. havainto
Useita ryhmiä
Suodattaa
Pura ryhmä

Tässä opetusohjelmassa käytetään lyöntitietojoukkoa. Alkuperäinen aineisto sisältää 102816 havaintoa ja 22 muuttujaa. Käytät vain 20 prosenttia tästä tietojoukosta ja käytät seuraavia muuttujia:

playerID: Pelaajan tunnuskoodi. Tekijä
vuosiID: Vuosi. Tekijä
teamID: Joukkue. tekijä
lgID: Liiga. Kerroin: AA AL FL NL PL UA
AB: Lepakoilla. Numeerinen
G: Pelit: pelaajan pelien määrä. Numeerinen
R: Käynnissä. Numeerinen
HR: Homeruns. Numeerinen
SH: Uhrihittejä. Numeerinen

Ennen kuin teet yhteenvedon, tee seuraavat vaiheet tietojen valmistelemiseksi:

Vaihe 1: Tuo tiedot
Vaihe 2: Valitse asiaankuuluvat muuttujat
Vaihe 3: Lajittele tiedot

library(dplyr)# Step 1data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") %> %# Step 2select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH)) %> %# Step 3arrange(playerID, teamID, yearID)

Hyvä tapa tuoda tietojoukko on käyttää glimpse () -toimintoa saadaksesi käsityksen tietojoukon rakenteesta.

# Structure of the dataglimpse(data)

Tuotos:

Observations: 104,324Variables: 9$ playerID  aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a… $ yearID  2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196… $ AB  1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495,… $ teamID  ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A… $ lgID  NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL,… $ G  33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15… $ R  0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75… $ HR  0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40… $ SH  0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6,…

Yhteenveto ()

Summate () -syntaksi on perus- ja yhdenmukainen muiden dplyr-kirjastoon sisältyvien verbien kanssa.

summarise(df, variable_name=condition)arguments:- `df`: Dataset used to construct the summary statistics- `variable_name=condition`: Formula to create the new variable

Katso alla oleva koodi:

summarise(data, mean_run =mean(R))

Koodin selitys

yhteenveto (data, keskimääräinen_ajo = keskiarvo (R)): Luo muuttujan nimeltä keskimääräinen_ajo, joka on datajoukon tiedoista käydyn sarakkeen keskiarvo.

Tuotos:

## mean_run## 1 19.20114

Voit lisätä niin monta muuttujaa kuin haluat. Palautat keskimääräiset pelatut pelit ja keskimääräiset uhriosumat.

summarise(data, mean_games = mean(G),mean_SH = mean(SH, na.rm = TRUE))

Koodin selitys

keskiarvo_SH = keskiarvo (SH, na.rm = TOSI): Tee yhteenveto toisesta muuttujasta. Asetat na.rm = TOSI, koska sarake SH sisältää puuttuvia havaintoja.

Tuotos:

## mean_games mean_SH## 1 51.98361 2.340085

Group_by vs. no group_by

Funktiolla summerise () ilman group_by () ei ole mitään järkeä. Se luo yhteenvetotilaston ryhmittäin. Kirjasto dplyr käyttää funktiota automaattisesti ryhmään, jonka olet välittänyt verbin group_by sisällä.

Huomaa, että group_by toimii täydellisesti kaikkien muiden verbien kanssa (ts. Mutatoi (), suodata (), järjestä (),…).

Putkijohtoa on kätevää käyttää, kun sinulla on enemmän kuin yksi askel. Voit laskea keskimääräisen kotikokeen baseball-liigan mukaan.

data % > %group_by(lgID) % > %summarise(mean_run = mean(HR))

Koodin selitys

data: Tietojoukko, jota käytetään yhteenvetotilastojen rakentamiseen
group_by (lgID): Laske yhteenveto ryhmittelemällä muuttuja `lgID
yhteenveto (keskiarvo = keskiarvo (HR)): Laske keskimääräinen kotikerta

Tuotos:

### A tibble: 7 x 2## lgID mean_run##  ## 1 AA 0.9166667## 2 AL 3.1270988## 3 FL 1.3131313## 4 NL 2.8595953## 5 PL 2.5789474## 6 UA 0.6216216## 7  0.2867133

Putkenoperaattori toimii myös ggplot (): n kanssa. Voit näyttää yhteenvetotilaston helposti kaavion avulla. Kaikki vaiheet työnnetään putkilinjan sisään, kunnes viinirypäle on juoni. Vaikuttaa visuaalisemmalta nähdä keskimääräinen kotikokemus liigan mukaan baarihiilellä. Alla oleva koodi osoittaa voiman yhdistää group_by (), yhteenveto () ja ggplot () yhdessä.

Suoritat seuraavan vaiheen:

Vaihe 1: Valitse tietokehys
Vaihe 2: Ryhmittele tiedot
Vaihe 3: Yhteenveto tiedoista
Vaihe 4: Piirrä yhteenvetotilastot

library(ggplot2)# Step 1data % > %#Step 2group_by(lgID) % > %#Step 3summarise(mean_home_run = mean(HR)) % > %#Step 4ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) +geom_bar(stat = "identity") +theme_classic() +labs(x = "baseball league",y = "Average home run",title = paste("Example group_by() with summarise()"))

Tuotos:

Toiminto yhteenvedossa ()

Verbi yhteenveto () on yhteensopiva melkein kaikkien R: n funktioiden kanssa. Tässä on lyhyt luettelo hyödyllisistä funktioista, joita voit käyttää yhdessä yhteenvedon () kanssa:

Tavoite	Toiminto	Kuvaus
Perus	tarkoittaa()	Vektorin x keskiarvo
	mediaani()	Vektorin x mediaani
	summa()	Vektorin x summa
vaihtelu	sd ()	vektorin x keskihajonta
	IQR ()	Vektorin x interkvartiili
Alue	min ()	Vektorin x minimi
	enintään ()	Vektorin x maksimiarvo
	kvantiili ()	Vektorin x kvantiili
Sijainti	ensimmäinen()	Käytä ryhmän_by () kanssa ryhmän ensimmäinen havainto
	kestää()	Käytä ryhmän_valinta () kanssa. Ryhmän viimeinen havainto
	n. ()	Käytä ryhmän_ryhmä () kanssa. ryhmän n. havainto
Kreivi	n ()	Käytä ryhmän_valinta () kanssa. Laske rivien määrä
	n_distinct ()	Käytä ryhmän_ryhmä () kanssa. Laske erillisten havaintojen määrä

Näemme esimerkkejä taulukon 1 jokaisesta toiminnosta.

Perustoiminto

Edellisessä esimerkissä et tallentanut yhteenvetotilastoa tietokehykseen.

Voit luoda päivämääräkehyksen yhteenvedosta kahdessa vaiheessa:

Vaihe 1: Tallenna datakehys jatkokäyttöä varten
Vaihe 2: Luo viivakaavio tietojoukon avulla

Vaihe 1) Laske keskimääräinen pelattujen pelien lukumäärä vuodessa.

## Meanex1 <- data % > %group_by(yearID) % > %summarise(mean_game_year = mean(G))head(ex1)

Koodin selitys

Vatsaustietojoukon yhteenvetotilasto on tallennettu tietokehykseen ex1.

Tuotos:

## # A tibble: 6 x 2## yearID mean_game_year##  ## 1 1871 23.42308## 2 1872 18.37931## 3 1873 25.61538## 4 1874 39.05263## 5 1875 28.39535## 6 1876 35.90625

Vaihe 2) Näytät yhteenvetotilaston viivapiirroksella ja näet trendin.

# Plot the graphggplot(ex1, aes(x = yearID, y = mean_game_year)) +geom_line() +theme_classic() +labs(x = "Year",y = "Average games played",title = paste("Average games played from 1871 to 2016"))

Tuotos:

Tilaus

Funktio summarize () on yhteensopiva aliasetusten kanssa.

## Subsetting + Mediandata % > %group_by(lgID) % > %summarise(median_at_bat_league = median(AB),#Compute the median without the zeromedian_at_bat_league_no_zero = median(AB[AB > 0]))

Koodin selitys

median_at_bat_league_no_zero = mediaani (AB [AB> 0]): Muuttuja AB sisältää paljon 0. Voit verrata at bat -muuttujan mediaania 0: lla ja ilman sitä.

Tuotos:

## # A tibble: 7 x 3## lgID median_at_bat_league median_at_bat_league_no_zero##   ## 1 AA 130 131## 2 AL 38 85## 3 FL 88 97## 4 NL 56 67## 5 PL 238 238## 6 UA 35 35## 7  101 101

Summa

Toinen hyödyllinen funktio muuttujan yhdistämiseksi on summa ().

Voit tarkistaa, millä liigoilla on enemmän kotirajoituksia.

## Sumdata % > %group_by(lgID) % > %summarise(sum_homerun_league = sum(HR))

Tuotos:

## # A tibble: 7 x 2## lgID sum_homerun_league##  ## 1 AA 341## 2 AL 29426## 3 FL 130## 4 NL 29817## 5 PL 98## 6 UA 46## 7  41

Keskihajonta

Datan leviäminen lasketaan R: n keskihajonnalla tai sd (): llä.

# Spreaddata % > %group_by(teamID) % > %summarise(sd_at_bat_league = sd(HR))

Tuotos:

## # A tibble: 148 x 2## teamID sd_at_bat_league##  ## 1 ALT NA## 2 ANA 8.7816395## 3 ARI 6.0765503## 4 ATL 8.5363863## 5 BAL 7.7350173## 6 BFN 1.3645163## 7 BFP 0.4472136## 8 BL1 0.6992059## 9 BL2 1.7106757## 10 BL3 1.0000000## #… with 138 more rows

Jokaisen joukkueen tekemien kotikierrosten määrässä on paljon eriarvoisuutta.

Pienin ja suurin

Voit käyttää vektorin vähimmäis- ja enimmäismääriä toiminnoilla min () ja max ().

Alla oleva koodi palauttaa pienimmän ja suurimman määrän pelejä pelaajan kaudella.

# Min and maxdata % > %group_by(playerID) % > %summarise(min_G = min(G),max_G = max(G))

Tuotos:

## # A tibble: 10,395 x 3## playerID min_G max_G##  ## 1 aardsda01 53 73## 2 aaronha01 120 156## 3 aasedo01 24 66## 4 abadfe01 18 18## 5 abadijo01 11 11## 6 abbated01 3 153## 7 abbeybe01 11 11## 8 abbeych01 80 132## 9 abbotgl01 5 23## 10 abbotji01 13 29## #… with 10,385 more rows

Kreivi

Laske havainnot ryhmittäin on aina hyvä idea. R: llä voit koota esiintymien määrän n: llä ().

Esimerkiksi alla oleva koodi laskee kunkin pelaajan pelaamien vuosien lukumäärän.

# count observationsdata % > %group_by(playerID) % > %summarise(number_year = n()) % > %arrange(desc(number_year))

Tuotos:

## # A tibble: 10,395 x 2## playerID number_year##  ## 1 pennohe01 11## 2 joosted01 10## 3 mcguide01 10## 4 rosepe01 10## 5 davisha01 9## 6 johnssi01 9## 7 kaatji01 9## 8 keelewi01 9## 9 marshmi01 9## 10 quirkja01 9## #… with 10,385 more rows

Ensimmäinen ja viimeinen

Voit valita ryhmän ensimmäisen, viimeisen tai n: nnen sijainnin.

Voit esimerkiksi löytää jokaisen pelaajan ensimmäisen ja viimeisen vuoden.

# first and lastdata % > %group_by(playerID) % > %summarise(first_appearance = first(yearID),last_appearance = last(yearID))

Tuotos:

## # A tibble: 10,395 x 3## playerID first_appearance last_appearance##   ## 1 aardsda01 2009 2010## 2 aaronha01 1973 1975## 3 aasedo01 1986 1990## 4 abadfe01 2016 2016## 5 abadijo01 1875 1875## 6 abbated01 1905 1897## 7 abbeybe01 1894 1894## 8 abbeych01 1895 1897## 9 abbotgl01 1973 1979## 10 abbotji01 1992 1996## #… with 10,385 more rows

n. havainto

Fiktio nth () täydentää ensimmäistä () ja viimeistä (). Voit käyttää ryhmän n: tä havaintoa palatun indeksin avulla.

Voit esimerkiksi suodattaa vain toisen vuoden, jota joukkue pelasi.

# nthdata % > %group_by(teamID) % > %summarise(second_game = nth(yearID, 2)) % > %arrange(second_game)

Tuotos:

## # A tibble: 148 x 2## teamID second_game##  ## 1 BS1 1871## 2 CH1 1871## 3 FW1 1871## 4 NY2 1871## 5 RC1 1871## 6 BR1 1872## 7 BR2 1872## 8 CL1 1872## 9 MID 1872## 10 TRO 1872## #… with 138 more rows

Erillinen havaintojen määrä

Funktio n () palauttaa havaintojen määrän nykyisessä ryhmässä. Suljettu funktio kohtaan n () on n_distinct (), joka laskee yksilöllisten arvojen määrän.

Seuraavassa esimerkissä lasketaan yhteen joukko pelaajia, jotka joukkue on värvännyt kaikkien jaksojen aikana.

# distinct valuesdata % > %group_by(teamID) % > %summarise(number_player = n_distinct(playerID)) % > %arrange(desc(number_player))

Koodin selitys

group_by (teamID): Ryhmittele vuosi ja tiimi
yhteenveto (numero_pelaaja = n_erottelu (pelaajaID)): Laske erillinen pelaajamäärä joukkueittain
järjestä (desc (numero_pelaaja)): Lajittele tiedot pelaajan lukumäärän mukaan

Tuotos:

## # A tibble: 148 x 2## teamID number_player##  ## 1 CHN 751## 2 SLN 729## 3 PHI 699## 4 PIT 683## 5 CIN 679## 6 BOS 647## 7 CLE 646## 8 CHA 636## 9 DET 623## 10 NYA 612## #… with 138 more rows

Useita ryhmiä

Yhteenvetotilasto voidaan toteuttaa useiden ryhmien välillä.

# Multiple groupsdata % > %group_by(yearID, teamID) % > %summarise(mean_games = mean(G)) % > %arrange(desc(teamID, yearID))

Koodin selitys

group_by (vuosiID, teamID): Ryhmittele vuosi ja tiimi
yhteenveto (keskimääräiset pelit = keskiarvo (G)): Tee yhteenveto pelaajien lukumäärästä
järjestä (desc (teamID, yearID)): Lajittele tiedot tiimin ja vuoden mukaan

Tuotos:

## # A tibble: 2,829 x 3## # Groups: yearID [146]## yearID teamID mean_games##   ## 1 1884 WSU 20.41667## 2 1891 WS9 46.33333## 3 1886 WS8 22.00000## 4 1887 WS8 51.00000## 5 1888 WS8 27.00000## 6 1889 WS8 52.42857## 7 1884 WS7 8.00000## 8 1875 WS6 14.80000## 9 1873 WS5 16.62500## 10 1872 WS4 4.20000## #… with 2,819 more rows

Suodattaa

Ennen kuin aiot tehdä jonkin toiminnon, voit suodattaa tietojoukon. Tietojoukko alkaa vuonna 1871, eikä analyysi tarvitse vuotta 1980 edeltäviä vuosia.

# Filterdata % > %filter(yearID > 1980) % > %group_by(yearID) % > %summarise(mean_game_year = mean(G))

Koodin selitys

suodatin (vuosiID> 1980): Suodata tiedot näyttämään vain merkitykselliset vuodet (ts. vuoden 1980 jälkeen)
group_by (yearID): Ryhmittele vuosi
yhteenveto (keskimääräinen_peli_vuosi = keskiarvo (G)): Yhteenveto tiedoista

Tuotos:

## # A tibble: 36 x 2## yearID mean_game_year##  ## 1 1981 40.64583## 2 1982 56.97790## 3 1983 60.25128## 4 1984 62.97436## 5 1985 57.82828## 6 1986 58.55340## 7 1987 48.74752## 8 1988 52.57282## 9 1989 58.16425## 10 1990 52.91556## #… with 26 more rows

Pura ryhmä

Viimeisenä mutta ei vähäisimpänä, sinun on poistettava ryhmittely, ennen kuin haluat muuttaa laskentatasoa.

# Ungroup the datadata % > %filter(HR > 0) % > %group_by(playerID) % > %summarise(average_HR_game = sum(HR) / sum(G)) % > %ungroup() % > %summarise(total_average_homerun = mean(average_HR_game))

Koodin selitys

suodatin (HR> 0): Sulje pois nolla homerun
group_by (playerID): ryhmittele pelaajan mukaan
yhteenveto (keskimääräinen_HR_peli = summa (HR) / summa (G)): Laske keskimääräinen kotikokemus pelaajan mukaan
ungroup (): poista ryhmittely
yhteenveto (yhteensä_keskiarvo_homerun = keskiarvo (keskimääräinen_HR_peli)): Yhteenveto tiedoista

Tuotos:

## # A tibble: 1 x 1## total_average_homerun## ## 1 0.06882226

Yhteenveto

Kun haluat palauttaa yhteenvedon ryhmittäin, voit käyttää:

# group by X1, X2, X3group(df, X1, X2, X3)

sinun on purettava tiedot seuraavien ryhmien kanssa:

ungroup(df)

Seuraavassa taulukossa on yhteenveto toiminnosta, jonka olet oppinut yhteenvedon () kanssa

menetelmä	toiminto	koodi
tarkoittaa	tarkoittaa	summarise(df,mean_x1 = mean(x1))
mediaani	mediaani	summarise(df,median_x1 = median(x1))
summa	summa	summarise(df,sum_x1 = sum(x1))
keskihajonta	sd	summarise(df,sd_x1 = sd(x1))
interkvartiili	IQR	summarise(df,interquartile_x1 = IQR(x1))
vähintään	min	summarise(df,minimum_x1 = min(x1))
maksimi	enint	summarise(df,maximum_x1 = max(x1))
kvantiili	kvantiili	summarise(df,quantile_x1 = quantile(x1))
ensimmäinen havainto	ensimmäinen	summarise(df,first_x1 = first(x1))
viimeinen havainto	kestää	summarise(df,last_x1 = last(x1))
n. havainto	n	summarise(df,nth_x1 = nth(x1, 2))
esiintymisen lukumäärä	n	summarise(df,n_x1 = n(x1))
erillisen esiintymisen lukumäärä	n_tarkka	summarise(df,n_distinct _x1 = n_distinct(x1))

R Kokoomatehtävä: Yhteenveto & Group_by () Esimerkki

Sisällysluettelo:

Yhteenveto ()

Group_by vs. no group_by

Toiminto yhteenvedossa ()

Perustoiminto

Tilaus

Summa

Keskihajonta

Pienin ja suurin

Kreivi

Ensimmäinen ja viimeinen

n. havainto

Erillinen havaintojen määrä

Useita ryhmiä

Suodattaa

Pura ryhmä

Yhteenveto

Poista elementti - CSS-temppuja

Poista upotetut tyylit - CSS-temppuja

Poista viimeinen merkki merkkijonosta - CSS-temppuja

Korvaukset setInterval-palveluun requestAnimationFrame - -toiminnon avulla CSS-temppuja

Valitse Satunnainen kohde taulukosta - CSS-temppuja

Pystysuuntainen - CSS-temppuja

Lesket - CSS-temppuja

Sananvaihto - CSS-temppuja

Kirjoitustila - CSS-temppuja

Sanavälit - CSS-temppuja

Paras ERP-ohjelmisto: SAP-kilpailijat & Vaihtoehdot vuonna 2021

Kuinka ladata & Asenna SAP GUI (FrontEnd) Windowsille

Mikä on SAP-instanssi & SAP SID?

Sap R / 3 -arkkitehtuurin opetusohjelma

Mikä on asiakas? Uuden asiakkaan luominen SAP SCC4: ssä