Parametriska och Icke-Parametriska Modeller

Avsnitt Progress

0% färdig

Parametriska vs. icke-parametriska modeller

Vad är en parameter?

Prediktionsmodeller studerar sambandet \(Y=f(x)\), vilket innebär att utfallet (\(Y\)) är en funktion av prediktorer (\(x\)).

Funktionen som skattar \(Y\) baserat på \(x\) är okänd och måste beräknas. Det finns en lång rad algoritmer för att hitta funktionen som bäst beskriver sambandet \(Y=f(x)\). Algoritmerna beräknar funktionen med hjälp av parametrar. Detta exemplifieras nu med en linjär regressionsmodell där vikt prediceras utifrån ålder och kön:

\(Y_{vikt} = \beta_{age} + \beta_{kön} + error\)

I denna modell finns tre parametrar (\(\beta_{age}, \beta_{kön}, error\)) som måste skattas. Antalet parametrar påverkas inte av antalet observationer i data. Fler observationer leder inte till fler eller färre parametrar, vilket innebär att antalet parametrar är fixerat.

Parametrar krävs för att göra prediktioner. Parametrar beräknas utifrån träningsdata (data som modellen lär sig på). Exempel på parametrar från olika typer av modeller framgår i tabellen nedan.

Modell	Parameter
Linjär regression	Koefficienterna (\(\beta\))
Logistisk regression	Koefficienterna (\(\beta\))
Neural networks (NN)	Vikterna (\(w\))
Support Vector Machine (SVM)	Supportvektorer
Random forest (RF)	Träden
Gradient Boosting (GBM)	Träden
Extreme Gradient boosting (XGB)	Träden

Tabell 1.

I parametriska modeller är antalet parametrar fixerade och det påverkas inte av antalet observationer. I en icke-parametrisk modell ökar antalet parametrar med antalet observationer som finns i träningsdata. Icke-parametriska modeller är exemelvis neural networks (NN), random forest (RF), gradient boosting (GBM), extreme gradient boosting (XGB).

Icke-parametriska modeller kan därför ta mycket längre tid att beräkna (ett större antal parametrar skall skattas) men kan å andra sidan ha betydligt högre precision än en parametrisk modell.