Logistic Regression (LR) is a renowed statistical model that finds use in many contexts, from medical fields to social sciences. Contrary to black-box models, one of the key features of LR is interpretability. However, it can be difficult to preserve this latter property when the covariates affect the response variable through high-order interactions. Here, we address this problem in the case of categorical predictors, and we propose a few approaches for identifying and including interaction terms in LR models, with possible benefits both in performance and interpretability. We then test the methodology on simulated data and discuss future developments.
La Regressione Logistica (LR) e un noto modello statistico che trova applicazioni in svariati contesti, dall’ambito medico a quello delle scienze sociali. A differenza dei modelli black-box, una delle caratteristiche della LR è l’interpretabilità. Tuttavia, può essere difficile preservare quest’ultima proprietà quando l’influenza delle covariate sulla variabile risposta e caratterizzata da interazioni di ordine elevato. Nel presente lavoro, affrontiamo questa problematica nel caso di predittori categorici, proponendo alcuni approcci per l’identificazione e l’inclusione delle interazioni nei modelli LR, con possibili benefici nelle prestazioni e nell’interpretabilità. Testiamo quindi la metodologia attraverso uno studio di simulazione e discutiamo dei possibili sviluppi futuri.
Interpretability and interaction learning for logistic regression models
N. R. Franco;M. C. Massi;F. Ieva;A. M. Paganoni
2021-01-01
Abstract
Logistic Regression (LR) is a renowed statistical model that finds use in many contexts, from medical fields to social sciences. Contrary to black-box models, one of the key features of LR is interpretability. However, it can be difficult to preserve this latter property when the covariates affect the response variable through high-order interactions. Here, we address this problem in the case of categorical predictors, and we propose a few approaches for identifying and including interaction terms in LR models, with possible benefits both in performance and interpretability. We then test the methodology on simulated data and discuss future developments.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.