Supponiamo di lanciare una moneta e di chiederci quale sia la probabilità di ottenere testa. L’esperienza e le nozioni scolastiche che abbiamo acquisito ci suggeriscono che la risposta sia 50%, poiché abbiamo un caso “favorevole” (testa) su due possibili esiti (testa o croce).
Questa è una forma molto comune di reificazione: confondere un’astrazione teorica (in questo caso, il modello probabilistico che assegna 50% a testa) con una proprietà della realtà empirica; come se quel 50% fosse una caratteristica intrinseca della moneta o del processo fisico di lancio. Al contrario di quanto si potrebbe pensare, infatti, questa risposta quasi automatica sottintende un modello statistico molto preciso, fatto almeno di due assunzioni principali sul processo che genera gli esiti (intendendo per esito l’ottenimento di ‘testa’ o di ‘croce’):
Assunzione del produttore competente: la moneta non è fisicamente sbilanciata (ossia, non è truccata).
Assunzione del lanciatore “onesto”: il modo in cui viene lanciata una moneta bilanciata non favorisce sistematicamente testa o croce.
Rispettate queste due ipotesi essenziali, ovvero il nostro modello, possiamo allora affermare con “ragionevole” sicurezza che il processo che produce gli esiti sia sufficientemente randomico (o aleatorio). Questo perché ci aspettiamo che il processo fisico dei lanci, che include le micro differenze nella forza impressa, nel punto di rilascio e nelle interazioni della moneta con l’aria e con la superficie di impatto, si comporti in modo “imprevedibile” nel singolo lancio ma complessivamente simmetrico, senza favorire sistematicamente uno dei due lati e senza dipendere in modo rilevante dall’esito precedente. In tali condizioni, la frequenza teorica ½ può fungere da base per formulare previsioni probabilistiche “plausibili” su ciò che accadrà dopo molti lanci: nel complesso, ci si aspetta che circa il 50% degli esiti sia ‘testa’.
In termini di modello, il parametro che rappresenta la probabilità di testa vale ½; se il modello è almeno approssimativamente adeguato, ci aspettiamo che la frequenza osservata di teste si avvicini a tale valore all’aumentare del numero di lanci. Tuttavia, anche un’ottima concordanza tra dati e modello non dimostra che il modello è corretto: indica solo che, finora, le osservazioni non lo smentiscono [1]. Invero, quelle stesse osservazioni potrebbero essere spiegate anche da altri meccanismi. Per esempio, un abile prestigiatore potrebbe lanciare una moneta truccata in modo da produrre circa il 50% di teste e 50% di croci. Così facendo, i dati apparirebbero perfettamente compatibili con il modello della moneta equa, pur essendo frutto di tutt’altro processo. O ancora, immaginiamo di ottenere una sequenza perfetta di teste e croci alternate (testa, poi croce, poi testa, poi croce e così via). Questo scenario sarebbe in perfetto accordo con la condizione numerica che il 50% degli esiti sia testa; tuttavia, un simile schema lascerebbe forti dubbi sul fatto che i lanci siano davvero imprevedibili nel singolo esito e sostanzialmente indipendenti.
L’esempio della moneta ci permette di riconoscere che, perfino nei casi più semplici, concetti come ‘probabilità attesa’ o ‘stima statistica’ non sono “proprietà della realtà”: sono aspetti che dipendono fortemente da deduzioni logico-matematiche fondate su un insieme di supposizioni sul comportamento di quella realtà. Purtroppo, la quotidianità ci porta a nascondere tali supposizioni in un substrato cognitivo latente, fino a farcele dimenticare [2]. Del resto, in contesti così ripetitivi, sarebbe scomodo rimarcare ogni volta le ipotesi che compongono il modello sottostante. Conseguentemente, la nostra elaborazione mentale ci porta a dar peso (quasi) solo all’aspettativa principale (in questo caso, il nostro 50% di probabilità), mentre il motivo per cui abbiamo maturato quella aspettativa scivola sullo sfondo fino a scomparire.
Ecco perché quando qualcuno ci chiede quale sia la probabilità di ottenere ‘testa’ lanciando una moneta noi tendiamo a rispondere “50%” senza volere ulteriori dettagli: perché, per semplificarci la vita, omettiamo la parte più importante della nostra valutazione, cioè le assunzioni che la rendono sensata. Tristemente, questo stesso meccanismo inconscio affligge le scienze biomediche da almeno un secolo, il che ha portato a enormi distorsioni sia nella produzione che nell’interpretazione delle prove scientifiche nonché all’acquisizione di veri e propri rituali statistici privi di fondamento metodologico [3]. Molti descrivono siffatto problema come uno dei più pervasivi e persistenti nella storia della scienza [4]. Invero, ogni metodo utilizzato per stimare un effetto (come l’efficacia di un farmaco) è affidabile solo nella misura in cui lo sono le assunzioni che lo sostengono [1]. Ad esempio, il “modello standard” di studio clinico randomizzato, al momento dell’analisi, dà per assodato che la randomizzazione sia riuscita adeguatamente, che non vi siano deviazioni sistematiche prima o dopo l’arruolamento dei pazienti e che non siano state trascurate interazioni rilevanti. Poiché tali ipotesi sono tutt’altro che garantite nella pratica [1,4], una parte sostanziale del lavoro di ricerca dovrebbe articolarsi in due attività: da un lato individuare una famiglia di modelli che descriva nel modo più fedele possibile il processo che genera i dati, cioè il fenomeno reale con tutte le sue incertezze; dall’altro rendere esplicite le incertezze che non è possibile modellizzare. Tuttavia, questo avviene di rado in modo esaustivo [2-4].
Anzi, c’è addirittura chi parla di “dati oggettivi” e di “dati auto-evidenti”, espressioni che riflettono non solo una grave reificazione ma anche una profonda ignoranza dei fondamenti della disciplina statistica o una forte adesione ideologica (l’intento di costruire narrazioni tendenziose per sostenere una causa che si ritiene utile per sé o per il proprio gruppo sociale). Come ampiamente riportato in letteratura, le stime statistiche sono il prodotto delle scelte e delle azioni degli analisti; e, spesso, analisti diversi possono ottenere risultati molto diversi tra loro partendo dagli stessi dati (a parità di competenza, onestà, neutralità e trasparenza) [1,4]. Questo succede perché, solitamente, ci sono molteplici modelli plausibili o, quantomeno, ragionevolmente compatibili con il fenomeno che si vuole descrivere [4]. L’esempio mediaticamente più eclatante degli ultimi tempi è quello di 246 biologi, suddivisi in 173 gruppi, che hanno generato stime molto differenti o persino in netto contrasto tra loro pur analizzando il medesimo insieme di dati [5]. Ma non solo: i dati stessi sono il prodotto delle scelte e delle azioni compiute nel disegno e nell’esecuzione dell’esperimento [1,6]. Questo aspetto è così rilevante che l’epidemiologia moderna descrive spesso gli effetti delle terapie attraverso il concetto di intervento congiunto: l’effetto biologico del trattamento unito allo specifico contesto sperimentale in cui viene valutato [4,7].
Concludendo, dobbiamo ricordarci che la scienza non è una disciplina oggettiva ma un sottosistema sociale pesantemente influenzato da questioni “umane” come economia, politica e ideologia [8,9]. Pertanto, aspetti come onestà, neutralità e trasparenza contano quanto la competenza e sostituiscono l’impossibile richiesta di oggettività [1,4,10,11]. In tale contesto, prendere consapevolezza delle limitazioni della statistica (e della metodologia in generale, inclusi protocolli e linee guida) è un atto di responsabilità finalizzato alla tutela della salute pubblica e della credibilità scientifica [9]. I risultati – inclusi quelli degli studi clinici – non sono dimostrazioni definitive ma, al più (quando c’è un’attenta investigazione dei meccanismi causali), scommesse ragionate [1,4,9].
Citando George Box: “Tutti i modelli sono sbagliati, alcuni sono utili.”
Riferimenti
1. Rovetta, A., Mansournia, M. A., Stovitz, S. D., Adams, W. M., & Greenland, S. (2025). Interpreting p values and interval estimates based on practical relevance: guidance for the sports medicine clinician. British journal of sports medicine, bjsports-2024-109357. Advance online publication. https://doi.org/10.1136/bjsports-2024-109357
2. McShane, B. B., Gal, D., Gelman, A., Robert, C., & Tackett, J. L. (2019). Abandon Statistical Significance. The American Statistician, 73(sup1), 235–245. https://doi.org/10.1080/00031305.2018.1527253
3. Gigerenzer, G. (2018). Statistical rituals: The replication delusion and how we got there. Advances in Methods and Practices in Psychological Science, 1(2), 198–218. https://doi.org/10.1177/2515245918771329
4. Greenland, S. (2025). Statistical Methods: Basic Concepts, Interpretations, and Cautions. In: Ahrens, W., Pigeot, I. (eds) Handbook of Epidemiology. Springer, New York, NY. https://doi.org/10.1007/978-1-4614-6625-3_54-1
5. Oza A. (2023). Reproducibility trial: 246 biologists get different results from same data sets. Nature, 622(7984), 677–678. https://doi.org/10.1038/d41586-023-03177-1
6. Greenland, S. (2022). The causal foundations of applied probability and statistics. In Probabilistic and causal inference: The works of Judea Pearl (pp. 605-624). Association for Computing Machinery. https://doi.org/10.1145/3501714.3501747
7. Dahabreh, I. J., & Hernán, M. A. (2019). Extending inferences from a randomized trial to a target population. European journal of epidemiology, 34(8), 719–722. https://doi.org/10.1007/s10654-019-00533-2
8. Hennig, C. (2010). Mathematical models and reality: A constructivist perspective. Foundations of Science, 15, 29–48. https://doi.org/10.1007/s10699-009-9167-x
9. Bann, D., Courtin, E., Davies, N. M., & Wright, L. (2024). Dialling back ‘impact’ claims: researchers should not be compelled to make policy claims based on single studies. International journal of epidemiology, 53(1), dyad181. https://doi.org/10.1093/ije/dyad181
10. Greenland S. (2012). Transparency and disclosure, neutrality and balance: shared values or just shared words?. Journal of epidemiology and community health, 66(11), 967–970. https://doi.org/10.1136/jech-2011-200459
11. Gelman, A., & Hennig, C. (2017). Beyond subjective and objective in statistics. Journal of the Royal Statistical Society: Series A (Statistics in Society), 180(4), 967–1033. https://doi.org/10.1111/rssa.12276
