Gå till index

Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Prediktionsmodeller: Tidymodels
  12. Hypotestester
    1 Ämne
Avsnitt 7, Ämne 5
Startad

Effektiv screening av data frames

Avsnitt Progress
0% färdig

Det finns numera flera paket som tillåter snabb exploration av data. Paketet DataExplorer är skapat för att producera färdiga rapporter, alternativt delar av rapporter. Det finns flera snarlika paket men DataExplorer är väldokumenterat och inbegriper de viktigaste metoderna. Börja med att installera och aktivera paketet:

R
install.packages("DataExplorer")
library(DataExplorer)

DataExplorer kan skapa en formaterad rapport som sparas som en PDF-fil på hårddisken. För att göra detta används funktionen create_report() som har argumenten output_file (namnet på filen som sparas på hårddisken), report_title (titel på rapporten), och det frivilliga argumentet y. Argumentet y anges bara om deskriptionerna ska stratifieras på en variabel. I nedanstående kod stratifieras rapporten på kolumnen death, som indikerar om patienten avled under studien.

R
rhc %>%
  create_report(
    output_file="rapportfilens namn",
    report_title= "titel på rapporten",
    y="death"
  )

Därefter kommer filen (med formatet HTML) att finnas i din working directory. Om du inte vet var din working directory är så skriver du kommandot getwd(), vilket returnerar din working directory (sannolikt är det samma mapp som ditt R-skript finns i). Början av filen ser ut som följer:

Vi fortsätter med att demonstrera hur enskilda komponenter i rapporten kan produceras för att explorera data.

Börja med en övergripande beskrivning av data:

R
introduce(rhc)
rowscolumnsdiscrete_columnscontinuous_columnsall_missing_columnstotal_missing_valuescomplete_rows
573563214201387349
R
plot_intro(rhc)
R
plot_missing(rhc)
R
# Frekvenser stratifierat på en varibel
plot_bar(rhc, by = "death", nrow=20, ncol=4)
R
# Se histogram med alla kontinuerliga variabler
plot_histogram(rhc)
R
# Densitetskurvor för alla kontinuerliga variabler
plot_density(rhc, ncol=3, nrow=10)
R
# QQ-grafer för alla kontinuerliga variabler
plot_qq(rhc, ncol=3, nrow=10)
R
# QQ-grafer stratifierade på en kolumn
plot_qq(rhc, by = "death", ncol=3, nrow=10)
R
# Korrelationsmatriser
plot_correlation(rhc)
R
# Bivariat distribution stratifierat på en kolumn
plot_boxplot(rhc, by = "death")
R
# Scatterplot `price` with all other continuous features
plot_scatterplot(split_columns(rhc)$continuous,
                 by = "age",
                 sampled_rows = 100L,
                 ncol=3, nrow=20)

R
# Visualize principal component analysis
plot_prcomp(rhc, maxcat = 8L)