Första kursen: Forskningsmetoder och Analys med R
-
Analys och forskning med R och Posit (Rstudio)
-
Grunderna i R och Rstudio7 Ämnen
-
Importera, exportera, spara och ladda data5 Ämnen
-
Strängar och regular expressions (regex)1 Ämne
-
Bearbetning av data med dplyr12 Ämnen
-
Dplyr: Introduktion
-
Dplyr filter(): Filtrera rader (observationer)
-
Dplyr select(): Selektera kolumner (variabler)
-
Dplyr mutate(): Skapa kolumner (variabler)
-
Dplyr arrange(): sortera rader (observationer)
-
Dplyr rename(): Namnge kolumer
-
Dplyr slice(): Selektera rader på positioner
-
Dplyr summarise(): Summera variabler (kolumner)
-
Dplyr ifelse(), if_else(), case_when(): Villkor
-
Dplyr row_number(): Numrering av rader
-
Dplyr rowwise(): Radvis beräkning
-
Dplyr distinct(): Identifiera unika observationer och rader
-
Dplyr: Introduktion
-
Visualisera och presentera14 Ämnen
-
Att visualisera data
-
Introduktion till ggplot2
-
Grunderna i ggplot2
-
Estetisk mappning
-
Färger, färgkoder och färgpaletter
-
Facets (subgrafer)
-
Geoms (geometriska objekt)
-
Geoms med statistiska beräkningar (transformationer)
-
Koordinatsystemet
-
Scales, axlar, legends (guides)
-
Fokusering och avgränsning
-
Tema (themes)
-
Organisering och layout av figurer med multipla paneler
-
Spara grafer till hårddisk
-
Att visualisera data
-
Explorerande och deskriptiva analyser6 Ämnen
-
Prediktionsmodeller12 Ämnen
-
Learning: Supervised och Unsupervised Learning
-
Parametriska och Icke-Parametriska Modeller
-
Osäkerhet (Uncertainty)
-
Kausal inferens (Kausalitet, Causality)
-
Strategier för att Skapa Prediktionsmodeller
-
Hantering av Kontinuerliga variabler, Icke-Linjära samband och Flexibla Funktioner
-
Variabelselektion (Feature Selection)
-
Missing Data och Multipel Imputation
-
Observationer med Stark Inverkan på Modellen
-
Att Jämföra och Välja Bland Modeller
-
Mått på prediktiv förmåga (Evaluation metrics)
-
Sammanfattande Principer för Prediktionsmodellering
-
Learning: Supervised och Unsupervised Learning
-
Klassisk regressionsanalys8 Ämnen
-
Machine learning (ML) och Artificiell Intelligens (AI)9 Ämnen
-
Introduktion till artificiell intelligens och machine learning
-
Vad är AI och ML?
-
Varför AI och ML nu?
-
Introduktion till Machine Learning (Maskininlärning)
-
Terminologi inom AI och ML
-
Brister i humana prediktioner och beslut
-
Learning (Inlärning)
-
Deep Learning (Djupinlärning, Neuronnät)
-
Ensemble metoder
-
Introduktion till artificiell intelligens och machine learning
-
Skapa prediktionsmodeller med Tidymodels6 Ämnen
-
Hypotestester och epidemiologiska mått5 Ämnen
Introduktion till tidymodels
Tidymodels består av flera paket som utvecklats för att bygga, optimera (eng. tune) och utvärdera (eng. evaluate) prediktionsmodeller. Alla funktioner i Tidydmodels följer principen för Tidyverse, vilket innebär att händelser kedjas ihop med hjälp av pipe (|>
). Tidymodels är det enskilt viktigaste verktyget för den som avser skapa prediktionsmodeller i R. Med Tidymodels får användaren ett enhetligt interface mot hundratals paket i R utan att behöva lära sig varje enskilt pakets specifikationer. Tidymodels underlättar arbetet avsevärt, även om det inledningsvis krävs en större tidsinvestering för att lära sig Tidymodels jämfört med ett enskilt paket.
Med Tidymodels effektiviseras följande process:
- Pre-processing: I Tidymodels finns funktioner för pre-processing. Detta görs genom att skapa recept som innehåller instruktioner för pre-processing (med paketet recipes) som sedan tillämpas på prediktionsmodeller (med paketet parsnip).
- Model building: Alla viktiga och vanliga prediktionsmodeller finns integrerade i Tidydmodels, exempelvis klassiska regressionsmodeller, neuronnät (djupinlärning, deep learning), machine learning (random forest, gradient boosting, extreme gradient boosting, etc), överlevnadsmodeller, med flera.
- Model tuning (optimering av modeller): I Tidymodels finns paket som underlättar tuning av hyperparametrar (med paketet tune). Detta är viktigt för modeller vars hyperparametrar behöver justeras för att förbättra modellen. Modellerna jämförs med resampling (med paketet rsample).
- Model evaluation: För att utvärdera modellerna finns paketet yardstick där allehanda performance metrics finns att tillgå (RMSE, ROC, C-index, och många fler).
Tidymodels består alltså av flera paket som används för att bygga, optimera och utvärdera prediktionsmodeller. Paketen som ingår i Tidymodels listas nedan.
rsample används för att dela data i träningsdata och testdata, samt utförs resampling (t ex korsvalidering). Dokumentation
parsnip används för att specificera modeller. Dokumentation
recipes bistår med pre-processing och feature engineering. Dokumentation
workflows kopplar ihop pre-processing, modeling, och post-processing till ett enda arbetsflöde. Dokumentation
tune möjliggör optimering av modellers hyperparametrar och pre-processing steg. Dokumentation
dials skapar och hanterar hyperparametrar. Dokumentation
yardstick tillhandahåller performance metrics (t ex ROC, RMSE, C-index, etc) för att utvärdera och jämföra modeller. Dokumentation
broom skapar data frames som innehåller resultaten från prediktionsmodeller. Dokumentation