Ho visto un’azienda di software spendere 45.000 euro in tre mesi per sviluppare una nuova interfaccia utente basata su un presupposto completamente errato. Erano convinti che la nuova versione fosse più veloce della vecchia. Avevano raccolto i tempi di reazione degli stessi utenti prima e dopo l'aggiornamento, convinti che un semplice confronto tra medie avrebbe dato loro la risposta. Hanno eseguito un T Test Paired T Test e hanno ottenuto un valore che sembrava promettente, ma non avevano tenuto conto dell'effetto apprendimento. Gli utenti erano più veloci non perché il software fosse migliore, ma perché avevano imparato a memoria la posizione dei pulsanti durante la prima sessione. Risultato? Hanno lanciato il prodotto, i nuovi clienti — che non avevano memoria storica — hanno trovato l'interfaccia frustrante e il tasso di abbandono è triplicato in sei settimane. Questo è il costo reale di quando si usa la statistica come un lampione: per appoggiarsi invece che per illuminare la strada.
Confondere l'indipendenza dei dati distrugge la validità della tua analisi
L'errore più frequente, quello che vedo ripetere dai neofiti fino ai manager che dovrebbero saperne di più, è trattare dati correlati come se fossero indipendenti. Se misuri la pressione sanguigna di Marco lunedì e poi la misuri di nuovo martedì dopo che ha preso un farmaco, quei due numeri appartengono a Marco. Non sono due osservazioni separate estratte a caso dalla popolazione mondiale. C'è un legame intrinseco. Se usi una procedura standard per campioni indipendenti quando i dati sono accoppiati, stai gonfiando artificialmente la varianza o, peggio, ignorando la precisione che il design sperimentale ti offre.
Perché succede? Perché spesso si ha fretta di inserire i numeri in un software senza capire cosa accade dietro le quinte. In un confronto tra gruppi diversi, la variabilità tra le persone è un rumore che devi gestire. In questo tipo di analisi su misure ripetute, quella variabilità individuale viene eliminata perché ogni soggetto funge da controllo di se stesso. Ignorare questa distinzione significa produrre risultati che non hanno alcun valore scientifico o commerciale. Ho visto presentazioni trimestrali crollare sotto il peso di una sola domanda di un analista esperto che ha notato questa svista elementare.
Il fallimento del T Test Paired T Test quando ignori la normalità delle differenze
Molti pensano che basti avere due colonne di numeri per procedere. Non è così. Una regola che molti dimenticano è che non sono i dati grezzi a dover seguire una distribuzione normale, ma la differenza tra le coppie. Ho lavorato con un team di controllo qualità in una fabbrica di componenti meccanici. Confrontavano l'usura dei pezzi prima e dopo un trattamento termico. Il loro T Test Paired T Test restituiva risultati assurdi. Quando ho controllato i dati, le differenze avevano una distribuzione totalmente asimmetrica con valori anomali estremi causati da una macchina tarata male.
Il mito del campione grande che salva tutto
Esiste questa credenza pericolosa secondo cui se hai più di 30 campioni, la distribuzione non conta. È una semplificazione eccessiva del Teorema del Limite Centrale che nel mondo reale ti porta a sbattere contro un muro. Se le tue differenze sono pesantemente influenzate da outlier, la media verrà trascinata in una direzione che non rappresenta la realtà del processo. In quel caso, l'analisi fallisce. Devi guardare i tuoi dati. Un semplice istogramma delle differenze ti direbbe subito se stai per pubblicare una menzogna statistica. Se la distribuzione è selvaggia, devi passare a test non parametrici o trasformare i dati. Non c'è un'altra via.
Ignorare l'effetto dell'ordine e della stanchezza nei test sugli utenti
Immagina di testare due diverse bevande energetiche sullo stesso atleta. Gli dai la bevanda A, lo fai correre, misuri il tempo. Il giorno dopo gli dai la bevanda B, lo fai correre e misuri il tempo. Se la bevanda B risulta peggiore, è merito del prodotto o l'atleta era ancora stanco dal giorno prima? Questo è l'effetto "carry-over". Nelle prove cliniche e nei test di usabilità, questo errore costa milioni in decisioni sbagliate.
Ho assistito a un test di un'app finanziaria dove agli utenti veniva chiesto di eseguire operazioni complesse con due layout diversi. Il secondo layout vinceva sempre. Perché? Perché gli utenti avevano capito come funzionava la logica dell'app durante il primo test. Il confronto era falsato dal primo secondo. La soluzione non è nel calcolo, ma nel design: devi randomizzare l'ordine. Metà degli utenti prova prima A, l'altra metà prova prima B. Se non lo fai, i tuoi risultati sono carta straccia, indipendentemente da quanto sia basso il tuo p-value.
Analisi del prima e dopo senza un gruppo di controllo reale
Questo è il punto dove la maggior parte delle aziende spreca budget pubblicitari immensi. Dicono: "Abbiamo fatto la campagna X, le vendite prima erano 100 e dopo sono 120, il test dice che l'aumento è significativo". Bravo, ma come fai a sapere che non è stata la stagionalità? O che un concorrente non abbia chiuso proprio in quel periodo?
Ecco un confronto pratico tra come viene gestito questo scenario solitamente e come dovrebbe essere gestito da chi sa cosa sta facendo.
Approccio sbagliato (Il disastro comune): Un'azienda di e-commerce vede un calo nelle vendite. Decide di cambiare il colore del pulsante "Acquista" da blu a verde. Misura le vendite di 50 prodotti scelti a caso nella settimana precedente e nella settimana successiva. Esegue l'analisi statistica e vede un miglioramento. Conclude che il verde è il colore del successo e cambia l'intero sito. Due settimane dopo, le vendite totali crollano perché il miglioramento era dovuto a un'offerta promozionale lanciata via email che nessuno aveva considerato nel calcolo.
Approccio corretto (La strategia professionale): L'azienda sceglie 100 prodotti simili. Ne cambia il colore del pulsante solo a 50 (gruppo sperimentale) e lascia gli altri 50 invariati (gruppo di controllo). Monitora entrambi nello stesso identico periodo di tempo. L'analisi non viene fatta solo sul "prima e dopo" del gruppo sperimentale, ma si confronta il cambiamento del gruppo sperimentale rispetto al cambiamento del gruppo di controllo. Si scopre che anche il gruppo di controllo è aumentato del 15% per fattori esterni. Il pulsante verde ha portato solo un misero 2% in più, che non copre nemmeno i costi di implementazione del design. Questa è la differenza tra un'illusione di crescita e una strategia basata sui fatti.
La trappola della significatività statistica contro la rilevanza pratica
Un p-value di 0,04 non significa che la tua idea sia geniale. Significa solo che è improbabile che la differenza osservata sia dovuta al caso, assumendo che tutto il resto sia perfetto. Ma se la differenza nel tempo di caricamento di una pagina web passa da 2,00 secondi a 1,99 secondi, e il tuo test dice che è "significativo" perché hai un campione di diecimila utenti, a chi importa? Hai speso settimane di sviluppo per un centesimo di secondo che nessun essere umano percepirà mai.
Ho visto analisti esultare per miglioramenti dello 0,5% nelle conversioni, spingendo le aziende a stravolgere i flussi di lavoro, solo per scoprire che quel micro-miglioramento non copriva nemmeno i costi energetici dei server aggiuntivi necessari. Devi guardare l'intervallo di confidenza. Se il tuo intervallo dice che il miglioramento potrebbe essere compreso tra lo 0,1% e il 5%, devi essere pronto allo scenario peggiore. Se lo 0,1% ti manda in perdita, quell'investimento è un suicidio finanziario camuffato da scienza.
Assunzioni errate sulla varianza e sulla sfericità nei dati
Quando si esegue un confronto accoppiato, si assume che la varianza delle differenze sia costante. Se i tuoi dati provengono da sensori che degradano nel tempo o da dipendenti che cambiano turno, la varianza potrebbe esplodere tra la prima e la seconda misurazione. Se la variabilità non è costante, il test perde potenza e inizia a restituire falsi negativi o, peggio, falsi positivi.
Un caso reale riguardava una catena di montaggio dove si testava un nuovo lubrificante. Le prime misurazioni erano coerenti, ma con l'aumentare della temperatura durante il giorno, la precisione dei sensori diminuiva. L'analista ha ignorato l'eteroschedasticità (la variazione della varianza) delle differenze. Hanno adottato il nuovo lubrificante convinti che riducesse l'attrito, ma in realtà il test aveva solo catturato il rumore termico dei sensori nel pomeriggio. Hanno scoperto l'errore solo quando i motori hanno iniziato a grippare tre mesi dopo, con un danno calcolato in oltre 200.000 euro di penali contrattuali.
Il controllo della realtà per chi deve decidere oggi
Non esiste un pulsante "calcola verità" nella statistica. Se pensi che il processo finisca premendo invio su un software, hai già perso. La statistica è il 10% calcolo e il 90% pulizia dei dati, design dell'esperimento e scetticismo paranoico. Se non hai controllato come i dati sono stati raccolti, se non sai chi ha inserito quei numeri e in quali condizioni, il risultato della tua analisi è rumore bianco.
Nessuno strumento magico ti salverà da un campionamento distorto o da un effetto carry-over non gestito. Se i tuoi dati sono sporchi, la tua analisi sarà sporca. La prossima volta che qualcuno ti presenta un grafico con un p-value incoraggiante, non chiedergli quanto è significativo. Chiedigli invece: "Cosa succederebbe a questi numeri se scambiassimo l'ordine del test?" o "Come abbiamo isolato l'effetto del tempo?". Se non sanno rispondere, prendi i loro risultati e mettili nel cestino. Ti faranno risparmiare più soldi così che seguendo i loro consigli sbagliati.
La verità brutale è che la maggior parte dei test eseguiti nelle aziende oggi è tecnicamente viziata. Non serve un dottorato per correggere il tiro, serve la disciplina di non innamorarsi del risultato che vogliamo ottenere. Bisogna smettere di cercare la conferma delle proprie idee e iniziare a cercare il modo in cui i dati stanno cercando di ingannarci. Solo allora i numeri inizieranno a lavorare davvero per te.