Gå till index

Lilla Forskarskolan: Forskningsmetoder och Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande och deskriptiva analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Skapa prediktionsmodeller med Tidymodels
    6 Ämnen
  12. Hypotestester och epidemiologiska mått
    5 Ämnen
Avsnitt Progress
0% färdig

Det finns minst två stora fält inom dataanalys: klassisk statistik och machine learning (maskininlärning). Klassisk statistik har dominerats av matematiker, medan ingenjörer och mjukvaruutvecklare haft en viktig roll i machine learning. Syftet med machine learning och klassisk statistisk är dock de samma, nämligen:

  1. Beskriva data
  2. Förklara samband och relationer mellan variabler
  3. Prediktera (förutsäga) en variabel utifrån värdet på andra variabler

Strategier beskriva, förklara och predicera skiljer sig dock inom machine learning och klassisk statistik. Detta innebär att metoderna (algoritmerna) skiljer sig åt, även om de finns många likheter och vissa metoder och algoritmer återkommer i båda fälten. Det finns ingen nytta i att separarera klassisk statistik från machine learning och de flesta analytiker använder metoder från båda områden. Eftersom machine learning och klassisk statistik utvecklats någorlunda separat så finns terminologiska skillnader vilka förklaras i nedanstående tabell.

Idag används termen learning (inlärning) för beräkningar och algoritmer som utforskar data. Nedanstående figur illustrerar hur learning kan klassificeras. Den viktigaste distinktionen är den mellan supervised learning och unsupervised learning. Huruvida learning är supervised eller unsupervised är avhängigt av om det finns ett utfall (\(Y\)) som guidar inlärningen.

graph LR A[Learning] --> |Y finns| S(Supervised learning); S --> |Y är kontinuerligt| R(Regression); S --> |Y är kategoriskt| C(Classification); R --> RE(Linear Regression<br/>Support Vector Machine<br/>Random forest<br/>Gradient boosting<br/>Neural networks); C --> CE(Logistic Regression<br/>Random forest<br/>Gradient boosting<br/>Neural networks); A[Learning] --> |Y finns inte| U(Unsupervised learning); U --> |Upptäck dolda strukturer| X(Klusteranalys) --> KE(K-means clustering<br/>Hierarchical Clustering); U --> |Studera samband| Y(Associationsanalys) --> AP(Associationsanalys); U --> |Reducera komplexitet| Z(Dimensionality reduction) --> DE(Principal Component Analysis);

Supervised learning (SL)

I supervised learning finns ett utfall (\(Y\)) som guidar algoritmerna, vilka sedan kan användas för att predicera (förutsäga) \(Y\). I supervised learning studeras hur \(Y\) relaterar till en eller flera variabler (\(X\)). Syftet är att predicera värdet på Y, givet värden på relaterade variabler (\(X_1\), \(X_2\), \(X_3\), \(X_n\)). Genom att använda en algoritm kan vi beräkna hur \(X_1\), \(X_2\), \(X_3\), \(X_n\), etc, är relaterade till \(Y\), och dessutom skapa en prediktionsmodell för att förutsäga \(Y\), givet värdena på \(X_1\), \(X_2\), \(X_3\), \(X_n\).

Exempel 1: En analys där risken för att få diabetes (Y) studeras som en funktion av ålder (X1), kön (X2), och BMI (X3).

Exempel 2: En analys där årlig inkomst (Y) studeras som en funktion av ålder (X1), utbildning (X2), yrke (X3).

Benämning i klassisk statistiskBenämning i machine learning
Variabel som predikteras (Y)Y
Dependent variable
Beroende variabel
Utfall
Outcome
Response
Y
Label
Target
Response
Variabler som används för att predicera YPrediktor (Predictor)
Kovariat (Covariate)
Prediktor (Predictor)
Feature
Input
Prediktion av kontinuerligt YRegressionRegression
Prediktion av kategorisk YRegression*Klassifikation
*I klassisk statistisk används termen regression för att referera till modeller som både predikterar kontinuerliga och kategoriska Y.

Exempel på algoritmer i supervised learning: linjär regression, logistisk regression, Cox regression, random forest, djupinlärning, gradient boosting, etc.

Supervised learning kan indelas i regression och klassifikation.

Classification (klassifikation)

Klassifikation innebär att man predikterar ett kategoriskt utfall. Exempel på sådana utfall är som följer:

  • Död (ja/nej)
  • Diabetes (ja/nej)
  • Konkurs (ja/nej)
  • Viktkategori (normal vikt, övervikt, fetma)

Regression

Termen regression är lite förvirrande; den klassiska statistiken innehåller en lång rad regressionsmodeller som kan användas för att predicera både kontinuerliga och kategoriska utfall. Inom machine learning används dock termen för att referera till modeller som predikterar kontinuerliga utfall (numeriska siffror). Exempel på sådana är:

  • Ålder (år)
  • Vikt (kg)
  • Inkomst (kr)
  • Pris (kr)

Unsupervised learning (UL)

Unsupervised learning kartlägger mönster i data, utan att beakta ett utfall (Y). Unsupervised learning innebär alltså att algoritmen identifierar strukturer i data. Det finns inget behov av att samla in information om Y, vilket inte sällan leder till att det finns mycket data att analysera.

Exempel 1: Föreställ dig en studie med tusentals människors livsstil, kostvanor, motionsvanor och deras riskfaktorer för hjärkärlsjukdom. Med unsupervised learning kan man identifiera grupper eller klusters (eng. cluster) av individer som liknar varandra avseende dessa variabler.

Typer av unsupervised learning följer:

  • Klusteranalys (cluster analysis): Med klusteranalys kan dolda mönster och grupper upptäckas i data.
  • Association: Rena associationsanalyser innebär att man studerar hur variabler relaterar till varandra.
  • Dimensionsreduktion (dimensionality reduction): Med dimensionality reduction används algoritmer föra tt skala bort onödig information i data. Det kan exempelvis innebära att antalet variabler i ett data set reducera genom att idenetifiera variabler som inte tillför något. Det kan också innebär att variablerna i datasettet ersätts med nya, och färre, vaiabler som deriverats från dessa data.