Gå till index

Lilla Forskarskolan: Forskningsmetoder och Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande och deskriptiva analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Skapa prediktionsmodeller med Tidymodels
    6 Ämnen
  12. Hypotestester och epidemiologiska mått
    5 Ämnen
Avsnitt Progress
0% färdig

Termer och begrepp inom AI och ML

Data

Även om denna term är något löst definierad så syftar man som regel på data som man har till sitt förfogande. I fallet med webbutiken är data information om besökarna och deras köp. Data behöver dock inte vara i tabellform; bilder, videofilmer, diagram m fl är också data.

Modell (Prediktionsmodell)

När man studerar data så gör man det med matematiska funktioner och sammanfattningen av dessa funktioner kallas modell. Man säger att man använder data för att bygga en modell. Denna modellen kan sedan användas för att exempelvis predicera om nya patienter kommer utveckla cancer, eller om nya besökare kommer handla i webbutiken. Modellen sammanfattar vad datorn lärt sig med machine learning. Termerna modell och prediktionsmodell är synonyma i detta sammanhang.

Träning (training)

För att skapa en modell behövs exempeldata. I exemplet med webbutiken behövde vi data från många besökare och deras beteende innan vi kunde predicera på nya besökare. Exempeldata (träningsdata) används för att maskininlärningen skall hitta mönstren som finns i data. Denna fasen kallas träning (eng. training), eftersom maskinen tränas med hjälp av exempeldata. Man brukar som regel använda 80% av all data till träning.

Testning (testing)

De 20% av data som inte används till träning kan användas till testning. Under testningen utvärderar man hur bra modellen är och detta måste göras på data som modellen inte tränats på. Testningen går alltså ut på att utvärdera modellens precision/förmåga.

Det är viktigt att man alltid testar modellen på data som  modellen inte studerat under träningsfasen. Modellen kommer nämligen alltid ha hög precision på data som den “sett under träningen”. Precisionen på testdata kommer alltid vara lägre och det är den precisionen som vi är intresserade av, eftersom det ger en bättre indikation av hur modellen presterar på framtida data. Fördelningen 80/20 kan justeras beroende på situation och data.

Variabel

Med variabel menar man vanligtvis kolumnerna i en tabell. Varje kolumn beskriver en egenskap hos enheterna man studerar (patienter, besökare, osv).

Prediktor (feature)

Alla variabler som används för att förutsäga utfallet är prediktorer. Med andra ord är en prediktor en variabel som används för att predicera (förutsäga) utfallet. I exemplet med skoleleverna så är deras skolnärvaro och föräldrar inkomst exempel på prediktorer.

Utfall, Outcome, Label

Utfall är det man försöker förutsäga (predicera) med hjälp av modellen. I exemplet med skoleleverna så är utfallet deras slutbetyg. I exemplet med webbutiken är utfallet om besökarna köper varor. Utfallet är alltså det man är intresserad av att prediktera.