Esse é o primeiro post de uma série que irá tratar sobre o ecossistema {mlr3} (Lang et al. 2019). Ele é mais completo e também muito mais complexo do que seu predecessor, o {mlr}, que teve sua versão inicial publicada no CRAN em 2013. O ecossistema permite um framework agnóstico (i.e. não depende dos algoritmos escolhidos), extensível e orientado a objeto, e, atualmente, permite vários tipos de tarefas, como classificação, regressão, análise de sobrevivência, forecasting, clustering, dentre outros. O {mlr3} tem diversas vantagens que o faz, IMHO, o framework mais completo para se trabalhar machine learning em R (R Core Team 2020) e elas ficarão claras ao longo dos próximos posts.

1 INTRODUÇÃO

O workflow padrão de um projeto de machine learning consiste em:

dividir sua amostra em treino e teste (split);
escolher o algoritmo¹ apropriado para o tipo de tarefa;
passar a amostra de treino ao algoritmo para criar um modelo do relacionamento entre a variável de resposta (output features) e as explicativas (input features);
passar os dados de testes ao modelo treinado para produzir predições;
comparar as predições com os dados da amostra;
mensurar a performance do modelo através de medidas de acurácia estabelecidas.

O processo de repetir esse workflow várias vezes, separando a amostra treino em várias partes diferentes e usando outras como fake test samples é chamado de resampling, um processo vital para a etapa de calibragem e para evitar o overfitting.

Dependendo dos dados, do tipo de tarefa e algoritmo escolhido, podem ser necessários vários filtros, como normalização, feature selection e tratamento de outliers ou dados faltantes. Para esses casos, o {mlr3} tem novas soluções que se destacam com muita vantagem em relação não só ao seu predecessor {mlr} como também a outros frameworks de machine learning em R, como o {caret} e o {tidymodels}.

1.1 CARACTERÍSTICAS DE DESIGN

Alguns princípios gerais que norteiam o desenvolvimento do pacote e afetam muito seu uso são:

Foco no backend. A maioria dos pacotes do ecossistema tem objetivo de processar e transformar dados, aplicar algoritmos e computar resultados. Visualizações são providenciadas em pacotes externos;
Adoção da classe R6 (Chang 2020) para design orientado a objeto, modify-in-place e semântica de referência (falaremos um pouco sobre esses conceitos adiante);
Adoção do {data.table} (Dowle e Srinivasan 2020) para manipulações de data frames. A combinação {R6} + {data.table} torna a performance um dos pontos fortes do ecossistema.
Baixa dependência. Entretanto, os algortimos não são implementados no ecossistema, como no scikit-learn em Python. Para executar o XGBoost (Chen et al. 2020), por exemplo, deve-se ter instalado o pacote que o implementa.

1.2 FORA DO ESCOPO

Como se trata de uma introdução, as etapas de tunning e resampling, assim como funcionalidades como os pipelines, serão abordadas em postagens futuras. Neste post trataremos apenas os conceitos básicos do workflow.

2 DIRETO AO PONTO

Para conhecer as funcionalidades básicas do pacote, usaremos um dos datasets inclusos no R, o swiss. Esse dataset consiste na medição padronizada da fertilidade e indicadores socioeconômicos de 47 províncias da Suíça em 1888.

# criando dataframe
data = swiss

# overview
skimr::skim(data)

Data summary
Name	data
Number of rows	47
Number of columns	6
_______________________
Column type frequency:
numeric	6
________________________
Group variables	None

Variable type: numeric

skim_variable	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
Fertility	1	70.14	12.49	35.00	64.70	70.40	78.45	92.5	▂▂▇▇▅
Agriculture	1	50.66	22.71	1.20	35.90	54.10	67.65	89.7	▃▃▆▇▅
Examination	1	16.49	7.98	3.00	12.00	16.00	22.00	37.0	▅▇▆▂▂
Education	1	10.98	9.62	1.00	6.00	8.00	12.00	53.0	▇▃▁▁▁
Catholic	1	41.14	41.70	2.15	5.20	15.14	93.12	100.0	▇▁▁▁▅
Infant.Mortality	1	19.94	2.91	10.80	18.15	20.00	21.70	26.6	▁▂▇▆▂

Dentre as variáveis disponíveis, podemos escolher modelar a mortalidade infantil Infant.Mortality baseada nas demais features, que são:

Fertility: Medida de fertilidade. Assim como a mortalidade infantil, está escalonada entre 0-100.
Agriculture: Percentual de homens envolvidos em agricultura como ocupação.
Examination: Percentual de alistados bem avaliados nos exames do exército.
Education: Percentual dos alistados com educação superior ao primário.
Catholic: Percentual de católicos (em oposto a protestantes).

O workflow começa pela criação da task, que é um objeto que contém os dados e informações sobre a tarefa a ser executada, como a variável de resposta² e as demais features, além de seus tipos. Como queremos realizar predições para uma variável numérica contínua, é uma tarefa de regressão.

# importando pacote
library(mlr3verse)

# criando task
task_swiss = TaskRegr$new(
  id = "swiss",
  backend = data,
  target = "Infant.Mortality"
)

Notou algo estranho? Como o {mlr3} trabalha com a classe R6, seu manuseio é mais parecido com outras linguagens orientadas a objeto, como o Python. Essa classe tem duas propriedades especiais:

Métodos pertencem a objetos e são chamados na forma objeto$metodo() e não como funções genéricas como foo(). Esse é o paradigma OOP (programação orientada à objetos). No caso acima, não há uma função para criar uma task como task_regr_new(), mas um método new() associado ao objeto TaskRegr;
Os objetos da classe R6 são mutáveis, ou seja, eles são modificados no local (modify-in-place) e, portanto, têm semântica de referência. Isso significa que eles não são copiados a cada modificação, como os data frames comuns (classe S3), o que é um fator de alocação de memória e, consequentemente, lentidão.

O efeito colateral é que isso não é muito familiar para pessoas que não conhecem outras linguagens de programação além do R e no início pode parecer pouco natural e confuso.

Criado o objeto, podemos acessá-lo para verificar e visualizar as informações ali contidas:

# verificando
task_swiss

<TaskRegr:swiss> (47 x 6)
* Target: Infant.Mortality
* Properties: -
* Features (5):
  - dbl (3): Agriculture, Catholic, Fertility
  - int (2): Education, Examination

# visualizando
autoplot(task_swiss, type = "pairs")

Podemos ver que apenas a fertilidade é linearmente correlacionada com a mortalidade infantil — quanto maior a fertilidade, maior a mortalidade —, e podemos esperar que tenha maior peso nas predições. As demais variáveis não apresentam correlação linear significativa com a variável de resposta. Entretanto, apresentam correlação moderada ou forte entre si, mas não a ponto de apresentar colinearidade, o que demandaria tratamento.

Agora selecionamos o algoritmo³ que será usado para treinar o modelo. Escolhi aqui o XGBoost. A lista completa pode ser acessada por essa lista estática, por essa lista dinâmica ou pela função mlr3extralearners::list_mlr3learners(). Como mencionado anteriormente, os algoritmos não são implementados pelo ecossistema do {mlr3} e nas listas citadas constam os pacotes onde os algoritmos foram implementados e que devem ser baixados para o seu uso.

# definindo o learner
l_xgboost = lrn("regr.xgboost")

# checando
l_xgboost

<LearnerRegrXgboost:regr.xgboost>: Extreme Gradient Boosting
* Model: -
* Parameters: nrounds=1, nthread=1, verbose=0
* Validate: NULL
* Packages: mlr3, mlr3learners, xgboost
* Predict Types:  [response]
* Feature Types: logical, integer, numeric
* Properties: hotstart_forward, importance, internal_tuning, missings,
  validation, weights

Vamos entender o que o objeto l_xgboost nos diz.

Model: Vazio, pois ainda não há um modelo treinado;
Parameters: Os hiperparâmetros a serem escolhidos e tunados para performance do modelo;
Packages: O pacote onde o algorítmo foi implementado e de onde será importado pelo {mlr3};
Predict Type: Se response a predição é retornada como 0 ou 1, no caso de classificação, ou num valor para variável de resposta, no caso de regressão — neste caso, será a mortalidade infantil escalonada no intervalo [1, 100]. Se “prob”, para classificação, a predição retorna a probabilidade entre 0 e 1;
Feature Type: Os tipos de variáveis que o algoritmo é capaz de manipular. No caso do XGBoost, por exemplo, apenas variáveis numéricas podem ser utilizadas. Isso quer dizer que os fatores devem ser convertidos em valores binários (i.e. 0 ou 1), ou seja, deve-se tornar a matriz esparsa — no caso de um fator sexo, por exemplo, na fase de pre-processamento seriam criadas as colunas sexo.masculino, com valores de 1 ou 0, e sexo.feminino, também com 1 ou 0;
Properties: Propriedades e capacidades adicionais do algoritmo. Neste caso, o XGBoost possui a capacidade de computar e retornar os valores da importância das features para o modelo; a capacidade de trabalhar com dados faltantes (missings); a capacidade de computar e retornar os pesos associados às features.

Como pode ver em parameters, não há nenhum hiperparâmetro configurado. Podemos acessá-los da seguinte maneira:

# acessando hiperparâmetros
head(as.data.table(l_xgboost$param_set))

                  id    class lower upper               levels nlevels
              <char>   <char> <num> <num>               <list>   <num>
1:             alpha ParamDbl     0   Inf               [NULL]     Inf
2:     approxcontrib ParamLgl    NA    NA           TRUE,FALSE       2
3:        base_score ParamDbl  -Inf   Inf               [NULL]     Inf
4:           booster ParamFct    NA    NA gbtree,gblinear,dart       3
5:         callbacks ParamUty    NA    NA               [NULL]     Inf
6: colsample_bylevel ParamDbl     0     1               [NULL]     Inf
   is_bounded special_vals   default storage_type    tags
       <lgcl>       <list>    <list>       <char>  <list>
1:      FALSE    <list[0]>         0      numeric   train
2:       TRUE    <list[0]>     FALSE      logical predict
3:      FALSE    <list[0]>       0.5      numeric   train
4:       TRUE    <list[0]>    gbtree    character   train
5:      FALSE    <list[0]> <list[0]>         list   train
6:       TRUE    <list[0]>         1      numeric   train

Como o tunning de hiperparâmetros não é o assunto, vamos apenas configurar algumas coisas básicas para demonstrar como essas informações são acessadas e modificadas. O método para isso é o param_set$values:

# hiperparâmetros
l_xgboost$param_set$values = list(
  # mandando o algoritmo treinar mais lentamente
  eta = 0.1,
  # limitando profundidade da árvore
  max_depth = 5,
  # quantidade máxima de iterações
  nrounds = 100
)

# verificando
l_xgboost

<LearnerRegrXgboost:regr.xgboost>: Extreme Gradient Boosting
* Model: -
* Parameters: eta=0.1, max_depth=5, nrounds=100
* Validate: NULL
* Packages: mlr3, mlr3learners, xgboost
* Predict Types:  [response]
* Feature Types: logical, integer, numeric
* Properties: hotstart_forward, importance, internal_tuning, missings,
  validation, weights

3 TREINO E PREDIÇÃO

As próximas etapas são o treino e a predição — trataremos de tunning e resampling nos próximos posts. Primeiramente, o split do dataset em treino e teste. Para isso, usaremos a função sample() em dois métodos do objeto task_swiss, o row_ids e nrow. O primeiro enumera os índices de cada linha:

# método row_ids
task_swiss$row_ids

 [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
[26] 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

Enquanto o segundo retorna a quantidade de linhas do dataset:

# método row_ids
task_swiss$nrow

[1] 47

Assim, podemos selecionar os índice do dataset em duas amostras aleatórias:

# garantindo reprodutibilidade
set.seed(1)

# índices para amostra treino
train_set = sample(task_swiss$row_ids, 0.7 * task_swiss$nrow)

# índices para amostra teste
test_set = setdiff(task_swiss$row_ids, train_set)

# verificando
head(train_set)

[1]  4 39  1 34 23 14

Com os índices selecionados, podemos realizar nosso treino apenas nos 70% escolhidos aleatoriamente da amostra, sem copiar os dados e alocar memória desnecessariamente:

# treino
l_xgboost$train(task_swiss, row_ids = train_set)

# verificando
l_xgboost$model

##### xgb.Booster
raw: 143.3 Kb 
call:
  xgboost::xgb.train(data = data, nrounds = 100L, eta = 0.1, max_depth = 5L, 
    objective = "reg:squarederror")
params (as set within xgb.train):
  eta = "0.1", max_depth = "5", objective = "reg:squarederror", validate_parameters = "TRUE"
xgb.attributes:
  niter
callbacks:
  cb.print.evaluation(period = print_every_n)
# of features: 5 
niter: 100
nfeatures : 5

Como podemos ver, na primeira iteração o modelo obteve rmse⁴. de 17.7, o que é alto considerando a escala [1-100] da mortalidade infantil. Ao longo do treino, o erro foi reduzido até 0.03, o que não significa que sua performance permaneça nesse nível quando extrapolado para a amostra teste ou novos dados, mas é um bom sinal. O esperado é que a performance real do modelo, após ser aplicado à amostra teste, fique entre a iteração inicial e final. Se ficar melhor do que a performance do teste, alguma coisa certamente está errada.

Vamos verificar qual a performance real após realizarmos as predições na amostra teste. Primeiro, passamos os índices de teste ao objeto do learner com o modelo e chamamos o método predict() para obter as predições.

# predições
preds = l_xgboost$predict(task_swiss, row_ids = test_set)

# verificando
preds

<PredictionRegr> for 15 observations:
 row_ids truth response
       8  24.9 20.69299
      11  24.5 20.65381
      13  19.1 15.63718
     ---   ---      ---
      40  20.5 19.55373
      43  20.0 21.27585
      47  19.3 21.82050

No objeto com as predições, são armazenados tanto os valores preditos pelo modelo response quanto os valores da amostra truth. Esses valores então podem ser comparados para calcular a acurácia do modelo através do método score():

# acurácia
preds$score(list(
  msr("regr.rmse"),
  msr("regr.mae")
))

regr.rmse  regr.mae 
 2.587082  2.214177

# visualizando
autoplot(preds)

A rmse do modelo na amostra teste ficou em apenas 2.59 unidades, o que é uma performance muito boa!

4 INTERPRETAÇÃO

Como o XGBoost possui a propriedade de feature importance, podemos extraí-la com o método importance():

# feature importance
l_xgboost$importance()

   Catholic Agriculture   Fertility Examination   Education 
 0.39696755  0.24723210  0.20219315  0.10340263  0.05020457

# visualizando
barplot(l_xgboost$importance())

Entretanto, somente a importância não nos descreve o relacionamento da feature com a variável de resposta, nem mesmo sua direção, sendo uma medida muito pobre de interpretação. Discutiremos técnicas de interpretação em outras postagens.

Referências

Chang, Winston. 2020. R6: Encapsulated Classes with Reference Semantics. https://CRAN.R-project.org/package=R6.

Chen, Tianqi, Tong He, Michael Benesty, Vadim Khotilovich, Yuan Tang, Hyunsu Cho, Kailong Chen, et al. 2020. xgboost: Extreme Gradient Boosting. https://CRAN.R-project.org/package=xgboost.

Dowle, Matt, e Arun Srinivasan. 2020. data.table: Extension of ‘data.frame‘. https://CRAN.R-project.org/package=data.table.

Lang, Michel, Martin Binder, Jakob Richter, Patrick Schratz, Florian Pfisterer, Stefan Coors, Quay Au, Giuseppe Casalicchio, Lars Kotthoff, e Bernd Bischl. 2019. «mlr3: A modern object-oriented machine learning framework in R». Journal of Open Source Software, dezembro. https://doi.org/10.21105/joss.01903.

R Core Team. 2020. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

Notas de rodapé

No {mlr3} é chamado de learner.↩︎
Também chamada de output feature ou label.↩︎
Aqui trabalharemos apenas com um, mas em posts futuros utilizaremos de diversas formas — pipelines com diferentes features, stacking etc.↩︎
Raiz do Erro Médio Quadrático↩︎