Un recente scambio di posto con i soliti influencer liquidi della CX (liquidi parafrasando Zygmunt Bauman) mi spinge a scrivere questo breve articolo sperando di poter illuminare finalmente queste menti pensanti della CX.

Importante: quello che sto per scrivere non sono i miei pensieri ma fatti scientificamente provati da studi accademici iniziati nel XIX secolo e che si sono sviluppati fino ai giorni nostri.

La domanda era semplice e la risposta altrettanto ovvia dal punto di vista statistico e matematico: possiamo assegnare un valore a chi non risponde alla survey? Nel dibattito, visto che si trattava di un’indagine NPS, si era parlato di assegnare arbitrariamente il valore dei detrattori per influenzare negativamente il risultato osservato.

La realtà era molto più semplice: avendo raccolto 100 interviste su un totale di 500 clienti, possiamo dire che n=100 (il campione osservato) e N=500 (l’intera popolazione), per cui la media stimata nel campione può variare di +/-8,77%. Visto che si tratta di un NPS, il margine è ancora più elevato perché molto probabilmente abbiamo a che fare con una distribuzione non normale. (vedi il mio articolo)

La stessa logica che mi porta a quel margine di errore dell’8,77% mi dice che, per un livello di confidenza del 95%, avrò bisogno di un campione di 218 interviste per un margine d’errore del 4,99%. Ma come si arriva a questo margine di errore? Cos’è la logica statistica e matematica? Cercherò di spiegarlo senza formule matematiche, in testo semplice per uomini d’affari.

Campionamento statistico e inferenza statistica

Il campionamento statistico (che si basa sulla teoria del campione o “teoria del campionamento”) è la base dell’inferenza statistica, divisa in due grandi capitoli: la teoria della stima e il test delle ipotesi. Nello specifico, una survey è campionaria quando è utile per inferenze, ossia per dedurre informazioni su tutta la popolazione a partire dal campione.

L’ultima frase è significativa e spiega l’importanza del campione stesso: l’obiettivo finale è selezionare un sottogruppo della popolazione totale in modo tale che sia rappresentativo di tutta la popolazione. In questo modo potremmo trattare i risultati del sottoinsieme come validi per l’intera popolazione.

Ovvio. No, di recente ho partecipato a una conversazione su LinkedIn in cui la gente voleva assegare valori arbitrari a chi non aveva risposto a una survey NPS. A chi non ha risposto non si può dare semplicemente un risposta per difetto. Allo stesso modo, perché costruire e distribuire una survey? Usa Photoshop e crea una dashboard con i risultati che preferisci. In ogni modo stai insultando la statistica e la matematica. Se vuoi farlo, fallo fino in fondo! Sarebbe come dire: ho chiesto a un campione della popolazione la loro altezza per scoprire l’altezza media delle persone; e a chi non ha risposto attribuiamo un’altezza di 190 cm (!). Si capisce immediatamente che non funziona, no?

Ciò che ho descritto, per la precisione, è il procedimento con cui si inducono le caratteristiche di una popolazione dall’osservazione di una parte di essa (campione); si chiama inferenza statistica e nasce a metà del XIX secolo dagli studi di Fisher e Peargon. Viene denominata anche inferenza classica per distinguera dall’inferenza baynesiana, basata sul teorema di Bayes.

L’errore del campione e le sue conseguenze

Dovremmo rispondere a due domande principali analizzando i risultati di uno studio di un sottogruppo di tutta la popolazione:

1. Pensi che il risultato ottenuto dal sottogruppo sia causale o rimarrà lo stesso se si ripete? (È fiducia o il risultato è significativo?)
2. Non confondere “significatività statistica” con “importanza”.

Non confondere “significatività statistica” con “importanza”!

In statistica, significativo vuol dire che il risultato osservato non è dovuto al mero caso con un certo livello di confidenza e che si ripete n volte l’osservazione su altri sottogruppi della popolazione, si otterà lo stesso risultato. Non ha niente a che vedere con il significato del risultato.

Non entrerò nei dettagli del calcolo. Basta sapere che questo tipo di analisi è stato proposto da Fisher e si basa sull’idea comune che possiamo accettare un rapporto di 1/20 (alpha 0.05). Generalmente, il risultato non è causale nel 95% dei casi.

In altre parole, se si stabilisce questa soglia, stiamo dicendo che per lo studio va bene che una volta su 20 la differenza osservata possa essere dovuta solo al caso. La soglia potrebbe essere portata a valori più alti (per esempio 0,01). Per essere sicuri al 100%, quindi, dovremmo esaminare l’intera popolazione.

In poche parole, quando diciamo che il risultato è significativo, vuol dire semplicemente che non è frutto del caso, accettando un margine d’errore (solitamente 0,05). Se ripetiamo lo stesso studio con un campione della stessa popolazione ma diverso dal primo, nel 95% dei casi otterremo lo stesso risultato.

Ma il campione è davvero rappresentativo?

Questo è l’ambito operativo della statistica inferenziale, che è finalizzata all’induzione probabilistica delle caratteristiche sconosciute di una popolazione. Ciò vuol dire che si occupa di risolvere il cosiddetto problema inverso: partendo da osservazioni realizzate su un campione di unità rappresentative di tutta la popolazione e selezionato con determinate procedure, si arriva a conclusioni generalizzabili (inferenza), entro dati livelli di probabilità di errore, all’insieme della popolazione stessa. La statistica inferenziale è alla base della teoria della probabilità e della teoria del campione.

Semplicemente, data la media osservata nel campione, si cercherà di calcolare la differenza con la media effettiva dell’intera popolazione stimando il margine d’errore. Si determinerà l’errore di campionamento, che è la misura dell’affidabilità del campione.

Esiste una regola semplice: più grande è il campione, più tenderà ad essere rappresentativo dell’intera popolazione. Tuttavia, questo dipende anche da altri fattori. Per esempio, maggiore è la varabilità degli elementi nelle persone, più grande dovrà essere il campione.

Ecco tre termini chiave che dovrai comprendere per calcolare la dimensione del campione e contestualizzarla:

Dimensione della popolazione: numero totale di persone nel gruppo che si cerca di analizzare. Se si prende un campione aleatorio di persone negli USA, la popolazione sarà di circa 317 milioni. Allo stesso modo, se la suvery si riferisce alla tua azienda, la dimensione della popolazione sarà il numero totale di dipendenti.

Il margine d’errore: una percentuale che indica la probabilità che i risultati della survey rispecchino le opinioni della popolazione totale. Minore è il margine d’errore, maggiore sarà la probabilità di ottenere la risposta corretta con un livello dato di confidenza.

Livello di confidenza del campione: percentuale che rivela quanto puoi essere sicuro che la popolazione sceglierebbe una risposta all’interno di un livello determinato. Un livello di confidenza del 95%, per esempio, significa che puoi essere sicuro al 95% che i risultati si trovino tra i numeri x e y.

Diversi siti offrono calcoli gratuiti della dimensione del campione basati su vari parametri. Basta cercare su Google “calcolatrice delle dimensioni del campione” e avrai una lista di siti che offrono questa possibilità.

In conclusione, la statistica è una scienza esatta. Non si tratta di interpretazioni personali ma di concetti matematici precisi. Leggere commenti come “Che valore diamo a chi non risponde a una survey?” o, peggio ancora, “Non presentiamo i valori del margine d’errore perché annoiano chi ascoltano i risutlati della survey” sono in linea perfettamente con la qualità del dibattito che pseudoinfluencer e guru stanno apportando alla Customer Experience: praticamente vicina allo 0, con uno scarso margine d’errore e il 99,9% di confidenza.

Influencer, per favore, non giocate con le statistiche!
Autore:
Federico Cesconi

Leggi l’articolo su LinkedIn

Inizia subito a crescere con sandsiv+