Inspektion av rådata

Avsnitt Progress

0% färdig

Funktioner för att inspektera rådata

I base R (grundinstallationen av R) finns funktioner som kan användas för att inspektera rådata. Med funktionen View() visas data i en tabell som kan sökas och sorteras. Detta är användbart för att göra manuella kontroller i rådata.

I detta kapitel arbetar vi med rhc data, vilket förklarades i föregående kapitel. Om du inte laddat ner data kan du göra det enligt instruktionerna i föregående kapitel.

View(rhc)

Detta fönster öppnas när du använder View():

Högst upp i fönstret finns funktioner som du kan använda för att filtrera i datamängden, bläddra bland kolumnerna och söka i hela datamängden. Dessa funktioner framgår av nedanstående bild.

Vi fortsätter med head() och tail() som presenterar de första 5 respektive sista 5 raderna i vår data frame. Du kan justera detta genom att ange hur många rader du vill se som andra argument i dessa funktioner.

# Första 3 rader
head(rhc, 3)

# Sista 2 rader
tail(rhc, 3)

Resultatet av head():

adld3p <int>	age <dbl>	alb1 <dbl>	aps1 <int>	bili1 <dbl>	ca <chr>	card <chr>	cardiohx <int>
0	70.25098	3.500000	46	1.0097656	Yes	Yes	0
NA	78.17896	2.599609	50	0.6999512	No	No	1
NA	46.09198	3.500000	82	1.0097656	Yes	Yes	0

Resultatet av tail():

adld3p <int>	age <dbl>	alb1 <dbl>	aps1 <int>	bili1 <dbl>	ca <chr>	card <chr>	cardiohx <int>
1	80.48499	4.099609	43	1.000000	No	No	1
NA	67.37897	3.500000	51	1.009766	No	No	0
NA	54.66397	3.000000	101	21.796875	No	No	0

Paketet dplyr har funktionen glimpse() som ger en överblick av data. Vi använder glimpse() på rhc nu:

glimpse(rhc)

Funktionen glimpse() ger således en snabb överblick av vilka variabler som finns i data framen, deras variabeltyper och de första variablernas värden.

Med funktionen summary() kan vi likaledes generera en deskription av alla variablerna. Jämfört med glimpse() ger summary() centralmått och spridningsvärden för varje variabel, vilket ses i följande exempel:

summary(rhc)

Funktionen summary() kan tillämpas på en enskild kolumn genom att referera till den med $ efter namnet på vår data frame:

summary(rhc$age)

För att se variablerna i en enda kolumn används samma metod som ovan. Kolumnens namn föregås av $, enligt följande:

rhc$age

Resultat (förkortat)

 [1]  70.25098  78.17896  46.09198  75.33197  67.90997  86.07794  54.96799  43.63898  18.04199  48.42398  34.44199  68.34796  74.70996  42.23700  81.97095  78.30499
  [17]  88.42200  69.00195  41.42899  67.50397  50.59000  62.68900  42.05298  23.11299  62.10797  39.82999  47.75598  36.70099  71.20099  95.53699  67.27997  73.49194
  [33]  71.49597  54.79300  36.13397  61.43997  55.97299  51.39999  54.31097  67.74298  59.90399  21.09200  94.07495  41.33899  80.38300  58.04199  32.07397  80.58295
  [49]  70.61200  80.18896  56.76898  85.29498  63.91498  78.08600  83.37000  61.86697  85.31995  42.92398  47.97498  58.03400  49.82898  69.19098  25.40999  68.40198
  [65]  63.54797  38.91599  77.32495  58.80099  66.32196  60.65399  66.89398  63.48297  25.51399  83.35895  42.28598  57.46997  76.43500  80.03796  49.52798  40.78000
  [81]  69.15295  68.70099  45.57397  59.29099  81.24597  72.81897  53.52197  39.73199  93.02399  54.08600  43.99500  64.11200  70.51599  87.13995  79.79199  46.58698
  [97]  87.70996  83.56195  86.17096  49.99899  30.56499  65.08099  63.88498  47.82498  41.83698  49.68698  57.09198  55.13797  44.31998  56.30899  75.12897  76.84900
 [113]  57.98999  69.40198  65.39600  79.93195  71.90997  77.19397  66.08398  20.58899  60.27100  54.08398  81.93597  36.18100  86.26996  74.68298  28.19399  86.14899
 [129]  80.60498  42.01498  34.11600  82.24799  78.70795  53.31400  71.98395  67.73700  80.45697  82.41998  88.17200  76.21399

Selektion av kolumner att inspektera

Funktionerna i dplyr är ovärderliga för att välja och mutera kolumner. Här följer flera exempel med förklaringar i kommentarer i koden:

# Inspekterar första 3 kolumnerna, hema, renalhx och
# alla kolumner mellan transhx:trauma och trauma
rhc %>%
  select(1:3, hema, renalhx, transhx:trauma)

adld3p <int>	age <dbl>	alb1 <dbl>	hema <chr>	transhx <int>	trauma <chr>
0	70.25098	3.5000000	No	0	No
NA	78.17896	2.5996094	No	1	No
NA	46.09198	3.5000000	No	0	No
NA	75.33197	3.5000000	No	0	No
NA	67.90997	3.5000000	No	0	No
0	86.07794	3.0996094	No	0	No
NA	54.96799	3.5000000	No	0	No
NA	43.63898	2.6997070	No	1	No
NA	18.04199	3.0000000	Yes	0	No
NA	48.42398	2.5000000	No	0	No

Du kan addera en View() allra sist för att inspektera all rådata, enligt följande:

rhc %>%
  select(1:3, hema, renalhx, transhx:trauma) %>%
  View()

När ovanstående kod körs kommer en fönster med rådata visas.

Du kan begränsa vilka patienter du inspekterar genom att använda ytterligare funktioner i dplyr:

rhc %>%
  # Behåller bara patienter som är äldre än 50 år och har card==Yes
  filter(age>50, card=="Yes") |> 
  # Väljer variabler
  select(1:3, hema, renalhx, transhx:trauma) |> 
  # Behåller första 100 raderna
  slice(1:100) |> 
  # Öppnar upp fönstret
  View()

När ovanstående kod körs kommer en fönster med rådata visas.