Gå till index

Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Prediktionsmodeller: Tidymodels
  12. Hypotestester
    1 Ämne
Avsnitt 7, Ämne 1
Startad

Att explorera data

Avsnitt Progress
0% färdig

Efter att data har preparerats skall exploration och deskription göras med stor omsorg. Kunskap om datas natur är fundamental för ett bra slutresultat. Analytikern måste ha god kännedom om variablernas natur, fördelningar, missingness (missing data), korrelationer och så vidare. För att explorera data behövs både funktioner i base R och funktioner i andra paket. Dessa paket är avgörande för adekvat och effektiv exploration och deskription. Vi kommer inte att använda klassiska övningsdata (t ex gapminder eller mpg) eftersom de saknar flera viktiga variabeltyper (exempelvis överlevnadsdata, datumvariabler, etc). Vi kommer istället att använda data från en klinisk studie kallad Right Heart Catetherization (RHC) som kan laddas ner med koden nedan.

Vi börjar med att ladda ner RHC till hårddisken (datorn) och sorterar därefter variablerna på alfabetisk ordning. Sorteringen är betydelselös och görs endast för att variablerna ska ha samma ordning i vår data frame som i Tabell 1 där variablerna förklaras. Du behöver lyckligtvis inte kunna några detaljer om variablerna i RHC, men det kan vara trevligt att ägna någon minut åt variabellistan för att få en känsla för vilka data vi arbetar med.

R
# Importera data
rhc <- read.csv("https://hbiostat.org/data/repo/rhc.csv", header = TRUE)

# Sortera kolumnerna alfabetiskt
rhc <- select(rhc, sort(names(rhc)))

# Inspektera data
head(rhc)
adld3p
<int>
age
<dbl>
alb1
<dbl>
amihx
<int>
aps1
<int>
bili1
<dbl>
ca
<chr>
card
<chr>
cardiohx
<int>
070.250983.5000000461.0097656YesYes0
NA78.178962.5996090500.6999512NoNo1
NA46.091983.5000000821.0097656YesYes0
NA75.331973.5000000480.3999634NoNo0
NA67.909973.5000000721.0097656NoYes0
086.077943.0996090381.0097656NoNo0
Utdrag ur RHC data. Variabelförklaring följer i Tabell 1.

Tabell 1. Förklaringar till variabler i RHC data.

VariabelDefinition
Adld3pADL (activity of daily living)
AgeAge
Alb1Albumin
AmihxDefinite Myocardial Infarction
Aps1APACHE score
Bili1Bilirubin
CaCancer
CardCardiovascular Diagnosis
CardiohxAcute MI, Peripheral Vascular Disease, Severe Cardiovascular Symptoms (NYHA-Class III), Very Severe Cardiovascular Symptoms (NYHA-Class IV)
Cat1Primary disease category
Cat2Secondary disease category
ChfhxCongestive Heart Failure
ChrpulhxChronic Pulmonary Disease, Severe Pulmonary Disease, Very Severe Pulmonary Disease
Crea1Creatinine
Das2d3pcDASI ( Duke Activity Status Index)
DeathDeath at any time up to 180 Days
DementhxDementia, Stroke or Cerebral Infarct, Parkinson’s Disease
Dnr1DNR status on day1
DschdteHospital Discharge Date
DthdteDate of Death
EduYears of education
GastrGastrointestinal Diagnosis
GibledhxUpper GI Bleeding
HemaHematologic Diagnosis
Hema1Hematocrit
Hrt1Heart rate
ImmunhxImmunosupperssion, Organ Transplant, HIV Positivity, Diabetes Mellitus Without End Organ Damage, Diabetes Mellitus With End Organ Damage, Connective Tissue Disease
IncomeIncome
LiverhxCirrhosis, Hepatic Failure
LstctdteDate of Last Contact
MalighxSolid Tumor, Metastatic Disease, Chronic Leukemia/Myeloma, Acute Leukemia, Lymphoma
Meanbp1Mean blood pressure
MetaMetabolic Diagnosis
NeuroNeurological Diagnosis
NinsclasMedical insurance
OrthoOrthopedic Diagnosis
Paco21PaCo2
Pafi1PaO2/FIO2 ratio
Ph1PH
Pot1Potassium
PsychhxPsychiatric History, Active Psychosis or Severe Depression
PtidPatient ID
RaceRace
RenalRenal Diagnosis
RenalhxChronic Renal Disease, Chronic Hemodialysis or Peritoneal Dialysis
RespRespiratory Diagnosis
Resp1Respiratory rate
SadmdteStudy Admission Date
Scoma1Glasgow Coma Score
SepsSepsis Diagnosis
SexSex
Sod1Sodium
Surv2md1Support model estimate of the prob. of surviving 2 months
Swang1Right Heart Catheterization (RHC)
Temp1Temperature
TranshxTransfer (> 24 Hours) from Another Hospital
TraumaTrauma Diagnosis
Urin1Urine output
Wblc1WBC
Wtkilo1Weight
Förklaring till variablerna i RHC.

I kommande kapitel diskuteras olika typer av exploration och deskription.