Come interpretare le stime statistiche (frequentiste) nella ricerca medica

I metodi statistici vengono utilizzati nella ricerca medica per stimare gli effetti dei trattamenti o delle condizioni di salute nelle popolazioni. Ad esempio, quando si vuole testare l’efficacia di un nuovo trattamento che ha dato esiti molto positivi negli studi preclinici su animali, si estrae dalla popolazione di interesse clinico un piccolo gruppo di pazienti; quest’ultimo prende il nome di campione statistico. L’obiettivo ideale è somministrare il trattamento ai pazienti del campione per stimarne l’efficacia sull’intera popolazione. Il processo con cui si “trasporta” l’effetto osservato nel campione alla popolazione più ampia prende il nome di inferenza. Tuttavia, anche adottando i migliori metodi inferenziali di cui disponiamo, un trasporto perfetto è fattualmente impossibile. Le ragioni spaziano dalle numerose incertezze che intervengono nella realizzazione di uno studio clinico alla variabilità delle condizioni in cui viene somministrato il trattamento nel “mondo reale” (differenze di protocolli nei vari ospedali, disparità di risorse tra le varie cliniche, etc.).

Per questo motivo, una stima statistica non è mai una verità assoluta bensì una scommessa ragionata su quale potrebbe essere l’effetto nella popolazione, fondata su quanto osservato nel campione. Nella maggior parte dei casi, ciò che si valuta non è l’effetto sui singoli pazienti ma l’effetto medio nel campione. Questa misura prende il nome di stima puntuale, e rappresenta la migliore scommessa disponibile sull’effetto medio nell’intera popolazione. Naturalmente, più accurato è lo studio, più affidabile sarà la scommessa. Ciononostante, ogni stima porta con sé un margine minimo di incertezza, ove il termine ‘minimo’ indica che almeno quella esiste, sebbene ve ne sia verosimilmente di ulteriore. Questa può essere interpretata come un grado di imprecisione sul risultato secondo la valutazione dello specifico metodo statistico usato. L’obiettivo è valutare quali altri possibili effetti medi sono ragionevolmente compatibili con quanto osservato nello studio secondo tale metodo.

Facciamo un esempio concreto: supponiamo di voler stimare l’effetto medio di un trattamento anti-ipertensivo in una certa popolazione di interesse. Dopo aver somministrato il trattamento a un campione opportunamente estratto dalla popolazione di interesse, osserviamo una variazione media della pressione diastolica pari a 0 mmHg. Ciò significa che l’effetto congiunto (combinato) del trattamento e di tutte le procedure associate (aderenza dei pazienti alla terapia, modalità di somministrazione, misurazioni, raccolta dati, etc.) ha prodotto una stima puntuale di 0 mmHg. Dunque è importante notare che non stiamo quantificando l’effetto medio “puro” della sola terapia sul campione bensì l’effetto complessivo della terapia più l’intero processo di sperimentazione. Per questo diciamo che la stima puntuale riflette l’intero processo che genera i dati. Ciò impone cautela: ogni numero che ricaviamo è il risultato di un contesto, non di un singolo fenomeno.

Fatta tale fondamentale premessa, ci chiediamo quanto precisa sia la nostra stima puntuale. La risposta dipende dal metodo statistico usato per quantificare l’imprecisione; spesso ne esistono diversi difendibili. Supponiamo che, applicando uno di essi, otteniamo un intervallo di incertezza minima che spazia da −5 mmHg a +5 mmHg. Ciò significa che, secondo quel metodo, tutti gli effetti medi compresi tra una riduzione media di 5 mmHg e un aumento medio di 5 mmHg sono discretamente in accordo con quanto osservato nell’esperimento. In altre parole, il metodo scelto ci dice: “Secondo me, la migliore scommessa è 0 mmHg; tuttavia, tutte le scommesse che vanno da un effetto medio di -5 mmHg a uno di +5 mmHg meritano considerazione”.

Tradizionalmente, questo intervallo viene chiamato intervallo di “fiducia” o “confidenza”. Tuttavia, questi termini sono fuorvianti poiché suggeriscono che dovremmo “fidarci” dei valori contenuti nell’intervallo. Al contrario, la fiducia scientifica in un risultato richiede molto più di una stima statistica: implica la validazione di ogni fase dello studio, cosa che nella maggior parte dei casi non è realizzabile in modo esaustivo. È quindi preferibile parlare di intervallo di compatibilità: l’intervallo che raccoglie un insieme di ipotesi sull’effetto medio ragionevolmente compatibili con quanto osservato nell’esperimento come valutato dal metodo statistico impiegato.

Per capire quanto il concetto di compatibilità sia più debole e moderato rispetto ad altri, come fiducia, confidenza, plausibilità o supporto, basta pensare che il ritrovamento di una persona sulla scena di un crimine è compatibile in modo simile sia con l’ipotesi di colpevolezza (ad esempio, che sia l’omicida) sia con l’ipotesi di soccorso (ad esempio, che sia accorsa in aiuto). Per sostenere una delle due ipotesi servono prove più specifiche della mera compatibilità. Analogamente, sostenere la presenza o l’assenza di un effetto causale richiede prove molto più solide di una semplice stima statistica che si limita a mostrare un intervallo di ipotesi discretamente compatibili con i dati. Tra queste prove rientrano un’attenta validazione metodologica e valutazioni di plausibilità biologica.

Per una discussione più dettagliata e per chiarimenti sul significato di ‘ragionevolmente compatibile’ rimando alla lettura dei seguenti lavori:

Rovetta, A., Mansournia, M. A., Stovitz, S. D., Adams, W. M., & Greenland, S. (2025). Interpreting p values and interval estimates based on practical relevance: guidance for the sports medicine clinician. British journal of sports medicine, bjsports-2024-109357. https://doi.org/10.1136/bjsports-2024-109357

Rovetta, A., Piretta, L., & Mansournia, M. A. (2025). p-Values and confidence intervals as compatibility measures: guidelines for interpreting statistical studies in clinical research. The Lancet regional health. Southeast Asia, 33, 100534. https://doi.org/10.1016/j.lansea.2025.100534

Vitale, A., Mansournia, M. A., & Rovetta, A. (2025). Why is p-Value Controversial?. Cardiovascular and interventional radiology, 10.1007/s00270-025-04139-y. https://doi.org/10.1007/s00270-025-04139-y (free text here: https://rdcu.be/exqjn)

Come interpretare le stime statistiche (frequentiste) nella ricerca medica

Lascia un commento Annulla risposta