RE.PUBLIC@POLIMI pubblicazioni di ricerca del Politecnico di Milano

Logistic Regression (LR) is a renowed statistical model that finds use in many contexts, from medical fields to social sciences. Contrary to black-box models, one of the key features of LR is interpretability. However, it can be difficult to preserve this latter property when the covariates affect the response variable through high-order interactions. Here, we address this problem in the case of categorical predictors, and we propose a few approaches for identifying and including interaction terms in LR models, with possible benefits both in performance and interpretability. We then test the methodology on simulated data and discuss future developments.

La Regressione Logistica (LR) e un noto modello statistico che trova applicazioni in svariati contesti, dall’ambito medico a quello delle scienze sociali. A differenza dei modelli black-box, una delle caratteristiche della LR è l’interpretabilità. Tuttavia, può essere difficile preservare quest’ultima proprietà quando l’influenza delle covariate sulla variabile risposta e caratterizzata da interazioni di ordine elevato. Nel presente lavoro, affrontiamo questa problematica nel caso di predittori categorici, proponendo alcuni approcci per l’identificazione e l’inclusione delle interazioni nei modelli LR, con possibili benefici nelle prestazioni e nell’interpretabilità. Testiamo quindi la metodologia attraverso uno studio di simulazione e discutiamo dei possibili sviluppi futuri.

Interpretability and interaction learning for logistic regression models

N. R. Franco;M. C. Massi;F. Ieva;A. M. Paganoni

2021-01-01

Abstract

Logistic Regression (LR) is a renowed statistical model that finds use in many contexts, from medical fields to social sciences. Contrary to black-box models, one of the key features of LR is interpretability. However, it can be difficult to preserve this latter property when the covariates affect the response variable through high-order interactions. Here, we address this problem in the case of categorical predictors, and we propose a few approaches for identifying and including interaction terms in LR models, with possible benefits both in performance and interpretability. We then test the methodology on simulated data and discuss future developments.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno di pubblicazione
	
				2021
			
	Titolo del libro
	
				Book of short papers - SIS 2021
			
	ISBN (International Standard Book Number)
	
				9788891927361
			
	Abstract
	
				La Regressione Logistica (LR) e un noto modello statistico che trova applicazioni in svariati contesti, dall’ambito medico a quello delle scienze sociali. A differenza dei modelli black-box, una delle caratteristiche della LR è l’interpretabilità. Tuttavia, può essere difficile preservare quest’ultima proprietà quando l’influenza delle covariate sulla variabile risposta e caratterizzata da interazioni di ordine elevato. Nel presente lavoro, affrontiamo questa problematica nel caso di predittori categorici, proponendo alcuni approcci per l’identificazione e l’inclusione delle interazioni nei modelli LR, con possibili benefici nelle prestazioni e nell’interpretabilità. Testiamo quindi la metodologia attraverso uno studio di simulazione e discutiamo dei possibili sviluppi futuri.
			
	Parole chiave
	
				interaction learning, interpretability, logistic regression, categorical data
			
	Appare nelle tipologie:
	
				04.1 Contributo in Atti di convegno

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11311/1178442

Citazioni

ND

ND

ND

social impact