Observationer med Stark Inverkan på Modellen

Avsnitt Progress

0% färdig

Observationer med stark inverkan på modellen

Resultatet (koefficienterna) från en regressionsmodell kan påverkas starkt av enskilda observationer. Detta är en oönskad effekt eftersom varje observation bör bidra lika mycket till modellen. Det finns flera förklaringar till varför en eller ett fåtal observationer har för stor effekt på modellen:

Det finns för få observationer i relation till modellens komplexitet. Som regel innebär detta att antal prediktorer i modellen är för många i relation till antalet observationer.
Extremvärden för prediktorn X kan påverka regressionskoefficienten. Patienter som har extremvärden kan (eventuellt) exkluderas om värdet är extremt och inte heller är representativt för populationen som studeras. Det innebär också att värden som inte är biologiskt plausibla kan exkluderas.
Vissa observationer har värden (för prediktorerna) som inte överensstämmer med utfallet. Om många sådana observationer finns i populationen så kan detta förändra sambandet mellan prediktorerna och utfallet. Detta bör dock inte leda till exklusion av patienterna eftersom man då riskerar introducera selektions-bias.

Man kan utgå från en variabels distribution för att exkludera patienter som har extrema värden. Detta kräver dock eftertanke och motivering. Det är också möjligt att kvantifiera hur stor inverkan en observation har på modellen. Detta görs genom att beräkna leverage. Det finns färdiga funktioner för detta i R. Leverage definieras som observationens förmåga att påverka modellen.