Första kursen: Forskningsmetoder och Analys med R
-
Analys och forskning med R och Posit (Rstudio)
-
Grunderna i R och Rstudio7 Ämnen
-
Importera, exportera, spara och ladda data5 Ämnen
-
Strängar och regular expressions (regex)1 Ämne
-
Bearbetning av data med dplyr12 Ämnen
-
Dplyr: Introduktion
-
Dplyr filter(): Filtrera rader (observationer)
-
Dplyr select(): Selektera kolumner (variabler)
-
Dplyr mutate(): Skapa kolumner (variabler)
-
Dplyr arrange(): sortera rader (observationer)
-
Dplyr rename(): Namnge kolumer
-
Dplyr slice(): Selektera rader på positioner
-
Dplyr summarise(): Summera variabler (kolumner)
-
Dplyr ifelse(), if_else(), case_when(): Villkor
-
Dplyr row_number(): Numrering av rader
-
Dplyr rowwise(): Radvis beräkning
-
Dplyr distinct(): Identifiera unika observationer och rader
-
Dplyr: Introduktion
-
Visualisera och presentera14 Ämnen
-
Att visualisera data
-
Introduktion till ggplot2
-
Grunderna i ggplot2
-
Estetisk mappning
-
Färger, färgkoder och färgpaletter
-
Facets (subgrafer)
-
Geoms (geometriska objekt)
-
Geoms med statistiska beräkningar (transformationer)
-
Koordinatsystemet
-
Scales, axlar, legends (guides)
-
Fokusering och avgränsning
-
Tema (themes)
-
Organisering och layout av figurer med multipla paneler
-
Spara grafer till hårddisk
-
Att visualisera data
-
Explorerande och deskriptiva analyser6 Ämnen
-
Prediktionsmodeller12 Ämnen
-
Learning: Supervised och Unsupervised Learning
-
Parametriska och Icke-Parametriska Modeller
-
Osäkerhet (Uncertainty)
-
Kausal inferens (Kausalitet, Causality)
-
Strategier för att Skapa Prediktionsmodeller
-
Hantering av Kontinuerliga variabler, Icke-Linjära samband och Flexibla Funktioner
-
Variabelselektion (Feature Selection)
-
Missing Data och Multipel Imputation
-
Observationer med Stark Inverkan på Modellen
-
Att Jämföra och Välja Bland Modeller
-
Mått på prediktiv förmåga (Evaluation metrics)
-
Sammanfattande Principer för Prediktionsmodellering
-
Learning: Supervised och Unsupervised Learning
-
Klassisk regressionsanalys8 Ämnen
-
Machine learning (ML) och Artificiell Intelligens (AI)9 Ämnen
-
Introduktion till artificiell intelligens och machine learning
-
Vad är AI och ML?
-
Varför AI och ML nu?
-
Introduktion till Machine Learning (Maskininlärning)
-
Terminologi inom AI och ML
-
Brister i humana prediktioner och beslut
-
Learning (Inlärning)
-
Deep Learning (Djupinlärning, Neuronnät)
-
Ensemble metoder
-
Introduktion till artificiell intelligens och machine learning
-
Skapa prediktionsmodeller med Tidymodels6 Ämnen
-
Hypotestester och epidemiologiska mått5 Ämnen
Dplyr rowwise(): Radvis beräkning
Funktionen mutate() utför operationer på kolumner. Exempelvis resulterar kommandot mutate(mean_bmi=mean(bmi))
till att kolumnen mean_bmi
beräknas som medelvärdet av kolumnen bmi
. Men hur gör vi om mean_bmi
istället skall beräknas som medelvärdet av flera kolumner? För detta behöver vi funktionen rowwise()
.
I dessa exempel använder vi mpg data som finns i paketet tidyverse. Aktivera tidyverse och mpg som följer:
library(tidyverse)
data(mpg)
# Inspektera första 10 raderna
head(mpg, 10)
manufacturer model displ year cyl trans drv cty hwy fl class
audi a4 1.8 1999 4 auto(l5) f 18 29 p compact
audi a4 1.8 1999 4 manual(m5) f 21 29 p compact
audi a4 2 2008 4 manual(m6) f 20 31 p compact
audi a4 2 2008 4 auto(av) f 21 30 p compact
audi a4 2.8 1999 6 auto(l5) f 16 26 p compact
audi a4 2.8 1999 6 manual(m5) f 18 26 p compact
audi a4 3.1 2008 6 auto(av) f 18 27 p compact
audi a4 quattro 1.8 1999 4 manual(m5) 4 18 26 p compact
audi a4 quattro 1.8 1999 4 auto(l5) 4 16 25 p compact
audi a4 quattro 2 2008 4 manual(m6) 4 20 28 p compact
För att demonstrationen skall bli tydligare sparar vi endast de numeriska kolumnerna i mpg data. Det nya objektet kallas mpg2
:
BLOCKERAD KOD, BILD ELLER TEXT
Du måste logga in för att komma åt allt material.
displ year cyl cty hwy
1.8 1999 4 18 29
1.8 1999 4 21 29
2 2008 4 20 31
2 2008 4 21 30
2.8 1999 6 16 26
2.8 1999 6 18 26
3.1 2008 6 18 27
1.8 1999 4 18 26
1.8 1999 4 16 25
2 2008 4 20 28
Vi skapar nu två nya variabler: ny_variabel
och ny_variabel_2
. Dessa variabler skall vara medelvärdet av kolumnerna cyl, displ och cty. Variabeln ny_variabel
skapas utan rowwise()
. Variabeln ny_variabel_2
skapas med rowwise()
, vilket innebär att den föregås av rowwise()
. Vi skapar variablerna samtidigt för att resultatet skall kunna jämföras direkt. Koden är som följer:
BLOCKERAD KOD, BILD ELLER TEXT
Du måste logga in för att komma åt allt material.
displ year cyl cty hwy ny_variabel ny_variabel_2
1.8 1999 4 18 29 8.74 7.93
1.8 1999 4 21 29 8.74 8.93
2 2008 4 20 31 8.74 8.67
2 2008 4 21 30 8.74 9
2.8 1999 6 16 26 8.74 8.27
2.8 1999 6 18 26 8.74 8.93
3.1 2008 6 18 27 8.74 9.03
1.8 1999 4 18 26 8.74 7.93
1.8 1999 4 16 25 8.74 7.27
2 2008 4 20 28 8.74 8.67
Som framgår ovan har alla rader samma värde på ny_variabel
(8.74). Detta förklaras av att mutate()
beräknade kolumnvis (column wise) medelvärde. Värdena för ny_variabel_2
varierar dock på varje rad, vilket beror på att värdena beräknats som radvis (row wise) medelvärde.