Första kursen: Forskningsmetoder och Analys med R
-
Analys och forskning med R och Posit (Rstudio)
-
Grunderna i R och Rstudio7 Ämnen
-
Importera, exportera, spara och ladda data5 Ämnen
-
Strängar och regular expressions (regex)1 Ämne
-
Bearbetning av data med dplyr12 Ämnen
-
Dplyr: Introduktion
-
Dplyr filter(): Filtrera rader (observationer)
-
Dplyr select(): Selektera kolumner (variabler)
-
Dplyr mutate(): Skapa kolumner (variabler)
-
Dplyr arrange(): sortera rader (observationer)
-
Dplyr rename(): Namnge kolumer
-
Dplyr slice(): Selektera rader på positioner
-
Dplyr summarise(): Summera variabler (kolumner)
-
Dplyr ifelse(), if_else(), case_when(): Villkor
-
Dplyr row_number(): Numrering av rader
-
Dplyr rowwise(): Radvis beräkning
-
Dplyr distinct(): Identifiera unika observationer och rader
-
Dplyr: Introduktion
-
Visualisera och presentera14 Ämnen
-
Att visualisera data
-
Introduktion till ggplot2
-
Grunderna i ggplot2
-
Estetisk mappning
-
Färger, färgkoder och färgpaletter
-
Facets (subgrafer)
-
Geoms (geometriska objekt)
-
Geoms med statistiska beräkningar (transformationer)
-
Koordinatsystemet
-
Scales, axlar, legends (guides)
-
Fokusering och avgränsning
-
Tema (themes)
-
Organisering och layout av figurer med multipla paneler
-
Spara grafer till hårddisk
-
Att visualisera data
-
Explorerande och deskriptiva analyser6 Ämnen
-
Prediktionsmodeller12 Ämnen
-
Learning: Supervised och Unsupervised Learning
-
Parametriska och Icke-Parametriska Modeller
-
Osäkerhet (Uncertainty)
-
Kausal inferens (Kausalitet, Causality)
-
Strategier för att Skapa Prediktionsmodeller
-
Hantering av Kontinuerliga variabler, Icke-Linjära samband och Flexibla Funktioner
-
Variabelselektion (Feature Selection)
-
Missing Data och Multipel Imputation
-
Observationer med Stark Inverkan på Modellen
-
Att Jämföra och Välja Bland Modeller
-
Mått på prediktiv förmåga (Evaluation metrics)
-
Sammanfattande Principer för Prediktionsmodellering
-
Learning: Supervised och Unsupervised Learning
-
Klassisk regressionsanalys8 Ämnen
-
Machine learning (ML) och Artificiell Intelligens (AI)9 Ämnen
-
Introduktion till artificiell intelligens och machine learning
-
Vad är AI och ML?
-
Varför AI och ML nu?
-
Introduktion till Machine Learning (Maskininlärning)
-
Terminologi inom AI och ML
-
Brister i humana prediktioner och beslut
-
Learning (Inlärning)
-
Deep Learning (Djupinlärning, Neuronnät)
-
Ensemble metoder
-
Introduktion till artificiell intelligens och machine learning
-
Skapa prediktionsmodeller med Tidymodels6 Ämnen
-
Hypotestester och epidemiologiska mått5 Ämnen
Terminologi inom AI och ML
Termer och begrepp inom AI och ML
Data
Även om denna term är något löst definierad så syftar man som regel på data som man har till sitt förfogande. I fallet med webbutiken är data information om besökarna och deras köp. Data behöver dock inte vara i tabellform; bilder, videofilmer, diagram m fl är också data.
Modell (Prediktionsmodell)
När man studerar data så gör man det med matematiska funktioner och sammanfattningen av dessa funktioner kallas modell. Man säger att man använder data för att bygga en modell. Denna modellen kan sedan användas för att exempelvis predicera om nya patienter kommer utveckla cancer, eller om nya besökare kommer handla i webbutiken. Modellen sammanfattar vad datorn lärt sig med machine learning. Termerna modell och prediktionsmodell är synonyma i detta sammanhang.
Träning (training)
För att skapa en modell behövs exempeldata. I exemplet med webbutiken behövde vi data från många besökare och deras beteende innan vi kunde predicera på nya besökare. Exempeldata (träningsdata) används för att maskininlärningen skall hitta mönstren som finns i data. Denna fasen kallas träning (eng. training), eftersom maskinen tränas med hjälp av exempeldata. Man brukar som regel använda 80% av all data till träning.
Testning (testing)
De 20% av data som inte används till träning kan användas till testning. Under testningen utvärderar man hur bra modellen är och detta måste göras på data som modellen inte tränats på. Testningen går alltså ut på att utvärdera modellens precision/förmåga.
Det är viktigt att man alltid testar modellen på data som modellen inte studerat under träningsfasen. Modellen kommer nämligen alltid ha hög precision på data som den “sett under träningen”. Precisionen på testdata kommer alltid vara lägre och det är den precisionen som vi är intresserade av, eftersom det ger en bättre indikation av hur modellen presterar på framtida data. Fördelningen 80/20 kan justeras beroende på situation och data.
Variabel
Med variabel menar man vanligtvis kolumnerna i en tabell. Varje kolumn beskriver en egenskap hos enheterna man studerar (patienter, besökare, osv).
Prediktor (feature)
Alla variabler som används för att förutsäga utfallet är prediktorer. Med andra ord är en prediktor en variabel som används för att predicera (förutsäga) utfallet. I exemplet med skoleleverna så är deras skolnärvaro och föräldrar inkomst exempel på prediktorer.
Utfall, Outcome, Label
Utfall är det man försöker förutsäga (predicera) med hjälp av modellen. I exemplet med skoleleverna så är utfallet deras slutbetyg. I exemplet med webbutiken är utfallet om besökarna köper varor. Utfallet är alltså det man är intresserad av att prediktera.