Introduktion till tidymodels

Avsnitt Progress

0% färdig

Tidymodels består av flera paket som utvecklats för att bygga, optimera (eng. tune) och utvärdera (eng. evaluate) prediktionsmodeller. Alla funktioner i Tidydmodels följer principen för Tidyverse, vilket innebär att händelser kedjas ihop med hjälp av pipe (|>). Tidymodels är det enskilt viktigaste verktyget för den som avser skapa prediktionsmodeller i R. Med Tidymodels får användaren ett enhetligt interface mot hundratals paket i R utan att behöva lära sig varje enskilt pakets specifikationer. Tidymodels underlättar arbetet avsevärt, även om det inledningsvis krävs en större tidsinvestering för att lära sig Tidymodels jämfört med ett enskilt paket.

Med Tidymodels effektiviseras följande process:

Pre-processing: I Tidymodels finns funktioner för pre-processing. Detta görs genom att skapa recept som innehåller instruktioner för pre-processing (med paketet recipes) som sedan tillämpas på prediktionsmodeller (med paketet parsnip).
Model building: Alla viktiga och vanliga prediktionsmodeller finns integrerade i Tidydmodels, exempelvis klassiska regressionsmodeller, neuronnät (djupinlärning, deep learning), machine learning (random forest, gradient boosting, extreme gradient boosting, etc), överlevnadsmodeller, med flera.
Model tuning (optimering av modeller): I Tidymodels finns paket som underlättar tuning av hyperparametrar (med paketet tune). Detta är viktigt för modeller vars hyperparametrar behöver justeras för att förbättra modellen. Modellerna jämförs med resampling (med paketet rsample).
Model evaluation: För att utvärdera modellerna finns paketet yardstick där allehanda performance metrics finns att tillgå (RMSE, ROC, C-index, och många fler).

Tidymodels består alltså av flera paket som används för att bygga, optimera och utvärdera prediktionsmodeller. Paketen som ingår i Tidymodels listas nedan.

rsample används för att dela data i träningsdata och testdata, samt utförs resampling (t ex korsvalidering). Dokumentation

parsnip används för att specificera modeller. Dokumentation

recipes bistår med pre-processing och feature engineering. Dokumentation

workflows kopplar ihop pre-processing, modeling, och post-processing till ett enda arbetsflöde. Dokumentation

tune möjliggör optimering av modellers hyperparametrar och pre-processing steg. Dokumentation

dials skapar och hanterar hyperparametrar. Dokumentation

yardstick tillhandahåller performance metrics (t ex ROC, RMSE, C-index, etc) för att utvärdera och jämföra modeller. Dokumentation

broom skapar data frames som innehåller resultaten från prediktionsmodeller. Dokumentation