Första kursen: Forskningsmetoder och Analys med R
-
Analys och forskning med R och Posit (Rstudio)
-
Grunderna i R och Rstudio7 Ämnen
-
Importera, exportera, spara och ladda data5 Ämnen
-
Strängar och regular expressions (regex)1 Ämne
-
Bearbetning av data med dplyr12 Ämnen
-
Dplyr: Introduktion
-
Dplyr filter(): Filtrera rader (observationer)
-
Dplyr select(): Selektera kolumner (variabler)
-
Dplyr mutate(): Skapa kolumner (variabler)
-
Dplyr arrange(): sortera rader (observationer)
-
Dplyr rename(): Namnge kolumer
-
Dplyr slice(): Selektera rader på positioner
-
Dplyr summarise(): Summera variabler (kolumner)
-
Dplyr ifelse(), if_else(), case_when(): Villkor
-
Dplyr row_number(): Numrering av rader
-
Dplyr rowwise(): Radvis beräkning
-
Dplyr distinct(): Identifiera unika observationer och rader
-
Dplyr: Introduktion
-
Visualisera och presentera14 Ämnen
-
Att visualisera data
-
Introduktion till ggplot2
-
Grunderna i ggplot2
-
Estetisk mappning
-
Färger, färgkoder och färgpaletter
-
Facets (subgrafer)
-
Geoms (geometriska objekt)
-
Geoms med statistiska beräkningar (transformationer)
-
Koordinatsystemet
-
Scales, axlar, legends (guides)
-
Fokusering och avgränsning
-
Tema (themes)
-
Organisering och layout av figurer med multipla paneler
-
Spara grafer till hårddisk
-
Att visualisera data
-
Explorerande och deskriptiva analyser6 Ämnen
-
Prediktionsmodeller12 Ämnen
-
Learning: Supervised och Unsupervised Learning
-
Parametriska och Icke-Parametriska Modeller
-
Osäkerhet (Uncertainty)
-
Kausal inferens (Kausalitet, Causality)
-
Strategier för att Skapa Prediktionsmodeller
-
Hantering av Kontinuerliga variabler, Icke-Linjära samband och Flexibla Funktioner
-
Variabelselektion (Feature Selection)
-
Missing Data och Multipel Imputation
-
Observationer med Stark Inverkan på Modellen
-
Att Jämföra och Välja Bland Modeller
-
Mått på prediktiv förmåga (Evaluation metrics)
-
Sammanfattande Principer för Prediktionsmodellering
-
Learning: Supervised och Unsupervised Learning
-
Klassisk regressionsanalys8 Ämnen
-
Machine learning (ML) och Artificiell Intelligens (AI)9 Ämnen
-
Introduktion till artificiell intelligens och machine learning
-
Vad är AI och ML?
-
Varför AI och ML nu?
-
Introduktion till Machine Learning (Maskininlärning)
-
Terminologi inom AI och ML
-
Brister i humana prediktioner och beslut
-
Learning (Inlärning)
-
Deep Learning (Djupinlärning, Neuronnät)
-
Ensemble metoder
-
Introduktion till artificiell intelligens och machine learning
-
Skapa prediktionsmodeller med Tidymodels6 Ämnen
-
Hypotestester och epidemiologiska mått5 Ämnen
Att explorera data
Efter att data har preparerats skall exploration och deskription göras med stor omsorg. Kunskap om datas natur är fundamental för ett bra slutresultat. Analytikern måste ha god kännedom om variablernas natur, fördelningar, missingness (missing data), korrelationer och så vidare. För att explorera data behövs både funktioner i base R och funktioner i andra paket. Dessa paket är avgörande för adekvat och effektiv exploration och deskription. Vi kommer inte att använda klassiska övningsdata (t ex gapminder eller mpg) eftersom de saknar flera viktiga variabeltyper (exempelvis överlevnadsdata, datumvariabler, etc). Vi kommer istället att använda data från en klinisk studie kallad Right Heart Catetherization (RHC) som kan laddas ner med koden nedan.
Vi börjar med att ladda ner RHC till hårddisken (datorn) och sorterar därefter variablerna på alfabetisk ordning. Sorteringen är betydelselös och görs endast för att variablerna ska ha samma ordning i vår data frame som i Tabell 1 där variablerna förklaras. Du behöver lyckligtvis inte kunna några detaljer om variablerna i RHC, men det kan vara trevligt att ägna någon minut åt variabellistan för att få en känsla för vilka data vi arbetar med.
# Importera data
rhc <- read.csv("https://hbiostat.org/data/repo/rhc.csv", header = TRUE)
# Sortera kolumnerna alfabetiskt
rhc <- select(rhc, sort(names(rhc)))
# Inspektera data
head(rhc)
adld3p <int> | age <dbl> | alb1 <dbl> | amihx <int> | aps1 <int> | bili1 <dbl> | ca <chr> | card <chr> | cardiohx <int> |
---|---|---|---|---|---|---|---|---|
0 | 70.25098 | 3.500000 | 0 | 46 | 1.0097656 | Yes | Yes | 0 |
NA | 78.17896 | 2.599609 | 0 | 50 | 0.6999512 | No | No | 1 |
NA | 46.09198 | 3.500000 | 0 | 82 | 1.0097656 | Yes | Yes | 0 |
NA | 75.33197 | 3.500000 | 0 | 48 | 0.3999634 | No | No | 0 |
NA | 67.90997 | 3.500000 | 0 | 72 | 1.0097656 | No | Yes | 0 |
0 | 86.07794 | 3.099609 | 0 | 38 | 1.0097656 | No | No | 0 |
Tabell 1. Förklaringar till variabler i RHC data.
Variabel | Definition |
Adld3p | ADL (activity of daily living) |
Age | Age |
Alb1 | Albumin |
Amihx | Definite Myocardial Infarction |
Aps1 | APACHE score |
Bili1 | Bilirubin |
Ca | Cancer |
Card | Cardiovascular Diagnosis |
Cardiohx | Acute MI, Peripheral Vascular Disease, Severe Cardiovascular Symptoms (NYHA-Class III), Very Severe Cardiovascular Symptoms (NYHA-Class IV) |
Cat1 | Primary disease category |
Cat2 | Secondary disease category |
Chfhx | Congestive Heart Failure |
Chrpulhx | Chronic Pulmonary Disease, Severe Pulmonary Disease, Very Severe Pulmonary Disease |
Crea1 | Creatinine |
Das2d3pc | DASI ( Duke Activity Status Index) |
Death | Death at any time up to 180 Days |
Dementhx | Dementia, Stroke or Cerebral Infarct, Parkinson’s Disease |
Dnr1 | DNR status on day1 |
Dschdte | Hospital Discharge Date |
Dthdte | Date of Death |
Edu | Years of education |
Gastr | Gastrointestinal Diagnosis |
Gibledhx | Upper GI Bleeding |
Hema | Hematologic Diagnosis |
Hema1 | Hematocrit |
Hrt1 | Heart rate |
Immunhx | Immunosupperssion, Organ Transplant, HIV Positivity, Diabetes Mellitus Without End Organ Damage, Diabetes Mellitus With End Organ Damage, Connective Tissue Disease |
Income | Income |
Liverhx | Cirrhosis, Hepatic Failure |
Lstctdte | Date of Last Contact |
Malighx | Solid Tumor, Metastatic Disease, Chronic Leukemia/Myeloma, Acute Leukemia, Lymphoma |
Meanbp1 | Mean blood pressure |
Meta | Metabolic Diagnosis |
Neuro | Neurological Diagnosis |
Ninsclas | Medical insurance |
Ortho | Orthopedic Diagnosis |
Paco21 | PaCo2 |
Pafi1 | PaO2/FIO2 ratio |
Ph1 | PH |
Pot1 | Potassium |
Psychhx | Psychiatric History, Active Psychosis or Severe Depression |
Ptid | Patient ID |
Race | Race |
Renal | Renal Diagnosis |
Renalhx | Chronic Renal Disease, Chronic Hemodialysis or Peritoneal Dialysis |
Resp | Respiratory Diagnosis |
Resp1 | Respiratory rate |
Sadmdte | Study Admission Date |
Scoma1 | Glasgow Coma Score |
Seps | Sepsis Diagnosis |
Sex | Sex |
Sod1 | Sodium |
Surv2md1 | Support model estimate of the prob. of surviving 2 months |
Swang1 | Right Heart Catheterization (RHC) |
Temp1 | Temperature |
Transhx | Transfer (> 24 Hours) from Another Hospital |
Trauma | Trauma Diagnosis |
Urin1 | Urine output |
Wblc1 | WBC |
Wtkilo1 | Weight |
I kommande kapitel diskuteras olika typer av exploration och deskription.