avsnitt 2 av 17

Introduktion till R

Johan Svensson april 1, 2020

Introduktion till R

Syftet med denna bok är att lära dig hur du hanterar, analyserar och presenterar data med R. Data science har blivit oerhört populärt de senaste åren. Detta förklaras delvis av följande trender:

  • Insamling av data har ökat lavinartat. Allt är digitalt idag, vilket innebär att möjligheterna att samla in data har ökat och därför samlar vi in data i en ofattbar omfattning.
  • Utveckling av mjukvara och metodik. Programvara och metoder för analys av data har utvecklats snabbt, särskilt inom maskininlärning och artificiell intelligens. Därutöver har även klassiska analysmetoder (t ex regression) utvecklats.
  • Kunskapsspridning. Globalt sett är data science ett stort område och antal individer som undervisar och sprider denna kunskap är många.

Data science är ett mycket brett område som kan omfatta i princip all analys av data. Därför finns data science inom varje arbets- och forskningsområde. Data science inkluderar programmering, analysdesign, statistiska beräkningar, visualisering och presentation av data. Faktum är att idag kan studenter, läkare, fysiker, ekonomer, sjuksköterskor, kemister, utvecklare, ingenjörer och många andra använda de avancerade metoder som diskuteras i denna mjukvara.

Målsättning

Denna bok ger dig grundläggande kunskap om R och data science i R. Men du blir inte expert genom att bara läsa den här boken. För att bli expert på datavetenskap är det nödvändigt att gräva djupare i varje ämne som behandlas här. Men du behöver lyckligtvis inte bli expert på varje ämne; att ha grundläggande förståelse för de flesta ämnen och djupare förståelse för några enstaka ämnen är i regel en bra strategi.

Ett typiskt projekt inkluderar följande moment:

  • Importera data
  • Rengöra data.
  • Transformera data (t ex skapa nya variabler)
  • Visualisera data.
  • Beskriva data med enkla deskriptiva metoder.
  • Genomföra analyser som belyser samband som finns i data:
    • Belysa samband mellan variabler (t ex hur ålder påverkar risken för cancer).
    • Skapa prediktionsmodeller (t ex en modell som förutsäger risken för cancer baserat på ett antal variabler).
  • Presentera data.

Inledande kommentarer

Att importera data innebär helt enkelt att du öppnar data och gör den tillgänglig i R. I denna kursen kommer vi fokusera på strukturerade data, vilket avser en rektangulär tabell som består av rader och kolumner. Raderna är observationer (t.ex. patienter eller kunder) och kolumnerna är variabler (information om patienterna eller kunderna). Vid användning av R kallas sådana tabeller data frames (ofta förkortat df). Nedanstående figur visar en typisk data frame.

R kan importera nästan alla typer av data. Filer från Excel, SPSS, SAS, CSV etc, kan alla importeras enkelt till R.

Efter att man importerat data så måste man som regel städa datafilen. Städa innebär att man ser till att datastrukturen lämpar sig för analyserna som skall göras.

När datastrukturen är korrekt fortsätter man processen med att transformera/manipulera data. Du kan till exempel behöva skapa en ny variabel som är summan av två andra variabler. Att ändra befintliga data eller skapa nya data kallas transformation eller manipulering av data.

Städning och transformation/manipulation kallas på engelska data wrangling.

När data wrangling är färdig brukar man som regel genomföra deskriptiva analyser av data. Deskriptiva analyser innebär att man beskriver data överskådligt. Medelvärden, medianer, standardavvikelser etc, är klassiska deskriptiva mått. Visualisering kan också ingå i detta.

Att visualisera data är fundamentalt för all data science. En bra illustration kan göra hela skillnaden i en rapport. I R finns en lång rad utomordentligt kraftfulla paket för visualisering av data. Paketet ggplot2 intar en särställning i detta.

Prediktionsmodeller – t ex klassiska regressionsmodeller eller modern machine learning (maskininlärning) – syftar till att skapa modeller av data. En modell är en matematisk beskrivning av data. Den kan användas för att uppskatta effekten av variabler eller för att göra prediktioner (förutsägelser).

Presentation eller kommunikation är fundamentalt för att en rapports budskap skall vara tydligt och kraftullt. Med R kan man generera statiska och dynamiska rapporter och det är dessutom enkelt att skapa dessa. T ex kan du skapa kompletta böcker, kompendier, webbsidor, eller enklare PDF-filer, Word-filer, PowerPoint-filer.

Andra datatyper

Denna bok fokuserar på strukturerade data (data frames). Men det finns många andra datatyper som kan analyseras i R. Fotografier, videofilmer, ljud och text kan också analyseras i R. För dessa typer av data är dock Python det dominerande språket.

Viktiga metoder och principer

Oavsett ändamålet med din rapport så är det viktigt att man som analytiker har förståelse för följande koncept:

  • Hypoteser and hypotestester – Om du ska jämföra blodtryck mellan två grupper, eller jämföra hur olika kunder handlar i en butik, så arbetar du med sannolikheter, hypotester och hypotestester.
  • Kausalitet (kausal inference) – Om du studerar hur en faktor påverkar en annan faktor, så studerar du orsakssamband (kausalitet). Kausal inferens handlar om vilka kausala slutsatser man kan dra från data. Som regel är det mycket svårt att dra kausala slutsatser om man inte haft detta i åtanke när man samlat in data.
  • Regressionsanalys och machine learning (maskininlärning) – Regression och maskininlärning är de viktigaste metoderna för att studera samband mellan variabler och för att göra prediktioner (förutsägelser).

Förutsättningar

Tidigare erfarenhet av programmering är fördelaktigt men absolut inte nödvändigt för att klara denna kursen. Vem som helst kan klara kursen och lära sig att använda R för att skapa rapporter och forskningsstudier.

Obligatorisk mjukvara

  • R: R är ett språk specifikt framtaget för data science, visualisering och maskininlärning (machine learning)
  • RStudio: RStudio är en IDE, vilket innebär att det underlättar programmering i språket R. Vi kommer använda RStudio för att programmera med språket R.
  • R paket (eng. R package): Du kan utöka funktionaliteten i R genom att installera paket. Om du till exempel vill använda Cox regression installerar du ett paket som innehåller alla nödvändiga funktioner för Cox regression. Det finns cirka 14 000 paket tillgängliga.

Om R och RStudio

R är ett språk som utvecklats speciellt för att analysera och visualisera data. R är extremt effektiv för detta ändamål. Språket utvecklades vid Bell Laboratories (tidigare AT&T, nu Lucent Technologies) av John Chambers och kollegor. Den grundläggande installationen av R ger ett brett utbud av statistiska modeller (linjär och ickelinjär modellering, klassiska statistiska tester, tidsserieanalys, klassificering, klusteranalys, etc) och möjligheter att visualisera data. Därutöver finns över 14.000 paket som är fritt tillgängliga. Med hjälp av dessa paket kan du bygga webbplatser, e-böcker (den här boken är skriven i R) och använda avancerade metoder för alla tänkbara ändamål.

Ladda ner R

Ladda ner R från CRAN (Comprehensive R Archive Network) här: https://cloud.r-project.org.

  1. Ladda ner R här.

Hur man installerar R

RStudio är en IDE (integrated development environment), vilket innebär att det underlättar programmering. Rstudio erbjuder ett gränssnitt som är lätt att använda. Ladda ner RStudio från den officiella hemsidan: http://www.rstudio.com/download.

  1. Download and install RStudio.
    • Scroll down to “Installers for Supported Platforms”
    • Make sure you select the correct operating system.

Följande bild visar RStudios interface.

Som framgår ovan finns det fyra paneler i RStudio. Kod/skriptfönstret används för att skriva R-kod. Du kan skriva flera rader och köra dem en efter en. Du kan också skriva och köra R-kod i konsolen, men det är inte lämpligt för att skriva längre kodstycken. Konsolen visar också resultat från exekverade R-kommandon. För att köra kod i konsolen, tryck bara på enter. Om du vill köra kod i script/source rutan markerar du de rader du vill köra och trycker på Run (kör) högst upp till höger i rutan.

När du skriver ett kommando i konsolen och trycker på Enter, så kör datorn kommandot och visar resultaten. Därefter visar RStudio en ny uppmaning (>) för nästa kommando.

5/5 (2 Reviews)