Logistic Regression (LR) is a renowed statistical model that finds use in many contexts, from medical fields to social sciences. Contrary to black-box models, one of the key features of LR is interpretability. However, it can be difficult to preserve this latter property when the covariates affect the response variable through high-order interactions. Here, we address this problem in the case of categorical predictors, and we propose a few approaches for identifying and including interaction terms in LR models, with possible benefits both in performance and interpretability. We then test the methodology on simulated data and discuss future developments.

La Regressione Logistica (LR) e un noto modello statistico che trova applicazioni in svariati contesti, dall’ambito medico a quello delle scienze sociali. A differenza dei modelli black-box, una delle caratteristiche della LR è l’interpretabilità. Tuttavia, può essere difficile preservare quest’ultima proprietà quando l’influenza delle covariate sulla variabile risposta e caratterizzata da interazioni di ordine elevato. Nel presente lavoro, affrontiamo questa problematica nel caso di predittori categorici, proponendo alcuni approcci per l’identificazione e l’inclusione delle interazioni nei modelli LR, con possibili benefici nelle prestazioni e nell’interpretabilità. Testiamo quindi la metodologia attraverso uno studio di simulazione e discutiamo dei possibili sviluppi futuri.

Interpretability and interaction learning for logistic regression models

N. R. Franco;M. C. Massi;F. Ieva;A. M. Paganoni
2021-01-01

Abstract

Logistic Regression (LR) is a renowed statistical model that finds use in many contexts, from medical fields to social sciences. Contrary to black-box models, one of the key features of LR is interpretability. However, it can be difficult to preserve this latter property when the covariates affect the response variable through high-order interactions. Here, we address this problem in the case of categorical predictors, and we propose a few approaches for identifying and including interaction terms in LR models, with possible benefits both in performance and interpretability. We then test the methodology on simulated data and discuss future developments.
2021
Book of short papers - SIS 2021
9788891927361
La Regressione Logistica (LR) e un noto modello statistico che trova applicazioni in svariati contesti, dall’ambito medico a quello delle scienze sociali. A differenza dei modelli black-box, una delle caratteristiche della LR è l’interpretabilità. Tuttavia, può essere difficile preservare quest’ultima proprietà quando l’influenza delle covariate sulla variabile risposta e caratterizzata da interazioni di ordine elevato. Nel presente lavoro, affrontiamo questa problematica nel caso di predittori categorici, proponendo alcuni approcci per l’identificazione e l’inclusione delle interazioni nei modelli LR, con possibili benefici nelle prestazioni e nell’interpretabilità. Testiamo quindi la metodologia attraverso uno studio di simulazione e discutiamo dei possibili sviluppi futuri.
interaction learning, interpretability, logistic regression, categorical data
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11311/1178442
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact