Capita molto spesso che i SEO abbiano a che fare con le statistiche del sito, o con dati che possono essere diversamente interpretati. In questa zona cercherò di fornire una guida generale che possa aiutare a interpretare in modo corretto quei dati, evitando bias e distorsioni cognitive tipiche della statistiche per non addetti ai lavori.
Attenzione: in questo articolo si parla dei problemi della statistica legati ai tipici scenari SEO (Search Engine Optimization). Non è detto che valgano in generale o su altri ambiti.
La consistenza, numerosità e affidabilità del campione analizzato
Parte delle statistiche si pongono come verità assolute nell’ambito del marketing: un classico equivoco imposto dal marketing stesso, che tende a togliere ogni margine di incertezza a probabilità e statistica. Probabilmente per sembrare univoco e sicuro di sè, anche perchè si pensa che “faccia bene” farlo: però alla lunga i risultati di questo atteggiamento stanno nel fatto che si prendono probabilità per certezze e si sbaglia, spesso in modo grossolano, solo per “seguire la statistica”, ci si convince di penalizzazioni tutte da dimostrare, si danno priorità errate, non è facile farlo notare, poi l’ambito SEO è diventato particolarmente ostile (in Italia è una specie di lotta senza quartiere, per come la vedo), nevrotico, asociale, a convenienza e ossessionato dal “dover fare” qualcosa anche se non serve a niente, mentre io stesso da due o tre anni ho qualche dubbio di voler continuare a far parte dello scenario.
Al netto delle mie considerazioni “esistenzialiste”, direi che la composizione del campione è un aspetto che bisogna sempre tenere in conto quando si valutano delle statistiche: non c’è molte cimare in questo ambito perché addirittura vari articoli scientifici sono biased e condizionatissimi da questo ipervalutazione, figuriamoci gli articoli di marketing sulla SEO che leggiamo pressappoco ogni giorno. Se calcolo una media o una varianza su cinque persone non è la stessa cosa da calcolare una media su migliaia di persone: per cui serve della statistica in cui analizzano 100 siti e ipotizzano un calo per via di penalità varie ed eventuali valutate sempre se sia davvero il caso di preoccuparsi (ovviamente è diverso se i siti sono migliaia o addirittura milioni).
Considerate inoltre che i campioni potrebbero essere stati filtrati per dimostrare quello che già si riteneva a priori, un po’ come se io volessi fare una statistica sulle mie potenziali partner che andassi a prendere pure di sole donne single, chiederebbe risultati molto incoraggianti quando la realtà è ben più complessa. Sei dal vengono esposti non sono open data o non sono liberamente consultabili è un indizio molto forte che l’articolo sia stato scritto per generare semplice hype (una cosa di cui abusano spesso quelli che possiedono domini molto “forti” lato SEO, una volta si diceva “autorevoli” che non vuol dire, ovviamente, che dicano per forza la verità, anzi).
Il concetto di correlazione
La correlazione e la sua cattiva interpretazione è forse uno dei casi più eclatanti di misleading graph, ovvero quegli scenari in cui si usano grafici in modo errato, tendenzioso, prevenuto, per giustificare una propria idea o peggio per provare ad avvalorarla anche se, in effetti, in assoluta carenza di metodo.
La correlazione è un concetto statistico che viene molto spesso frainteso e mal interpretato, sia sui giornali che (per dire) nel settore SEO; questo sia per la mania di semplificare le cose – esigenza dettata dal marketing, in effetti – che per un’effettivo fraintendimento o peggio totale ignoranza in fatto di statistica.
Nella SEO succede questo, più o meno: si individua un fattore accattivante (l’uso della keyword nel titolo, un backlink da un sito autorevole e via dicendo, a giro) e si tende – sulla base di un’analisi statistica (un campione di X siti) – ad attribuire a quel fattore (ranking factor) un’importanza più o meno “forte”: della serie, se fai questo arrivi primo su Google. Il che, alla prova dei fatti, diventa poco più di un trend vuoto e senza spessore, semplicemente da imitare in massa – il misleading graph, in effetti, è un modo elegante per riferirsi alla nota teoria della montagna di m.
Qual è il problema dell’abuso di correlazioni? In termini pratici, le correlazioni tendono a creare cattivi esempi oltre che indicare direzioni fuorvianti, oltre a mettere in ombra l’aspetto legato alla consulenza stessa: esempi di correlazioni molto abusati derivano, senza che io li linki a vuoto, da “studi” del tutto inattendibili (anche se, va detto, non per forza maliziosi) sui cosiddetti ranking factor. È ancora peggio, peraltro, quando le correlazioni vengono usate per prendere decisioni sulla strategia SEO, che in realtà è la cosa che si fa anche mediante l’intelligenza artificiale quando ti “suggerisce” la strategia, ed è un buon ricordare che tutto sommato bisogna stare molto, molto attenti a fare queste cose in questa luce.
Che male farà, in fondo?
A chi obietta che l’abuso del concetto di correlazione in ambito SEO sia tutto sommato innocuo (non sono pochi del settore a pensarlo) rispondo da sempre, per inciso, che il danno più grosso lo si fa a livello di false aspettative, esempio: il cliente si aspetta che ad un’azione anche minima corrisponda per forza una reazione solo perchè nel “blog autorevole A il guru B ha scritto C supportandosi col grafico D“.
Uno schema che si ripete alla nausea ormai da anni, e che crea almeno due ordini di problemi:
- crea aspettative difficili da soddisfare, complicando inutilmente la vita a tutti;
- crea potenziali pretesti perchè le consulenze SEO non vengano pagate (certo bisogna essere cattivelli per farlo, ma i presupposti non sono banali da smentire e spero che questo articolo possa essere utile a farlo)
Ecco il vero danno della correlazione: far passare una correlazione tra due fattori come causalità rischia di mettere in discussione, di punto in bianco, mesi di duro lavoro. Ecco perchè ho scritto questo articolo nella speranza che, un giorno non lontanissimo, questa triste tendenza acchiappa-click possa trovare la parola “fine”.
Vana speranza, ad oggi.
Non voglio perdermi nelle spiegazioni dei problemi annessi alla correlazione fraintesa come causalità, anche perchè basterebbe Wikipedia per capirlo da soli: vorrei piuttosto concentrarmi su un esempio pratico – per quanto ipotetico – che, ciclicamente, si ripropone in diverse varianti sulla piazza.
Esempio pratico
Per capirci, immaginiamo di fissare l’attenzione su un argomento (ad esempio la query di ricerca: “corsi per webmaster“), e facciamo questo ipotetico esperimento. Troviamo un criterio per estrarre tutti post del nostro blog che siano pertinenti all’argomento “corsi per webmaster”, e poniamo di ripetere la procedura su tutti i più importanti siti e blog dei nostri concorrenti. A questo punto potremmo – in PHP e Open Graph di Facebook è possibile farlo facilmente, peraltro – calcolare il numero di condivisioni di ognuno degli articoli che parlano di “corsi per webmaster”, ottenendo così una lista del genere (titolo, URL, numero condivisioni):
- Come diventare webmaster col miglior corso online (sito1.it), 500 condivisioni
- Corsi online per webmaster a soli 1500 € (sito2.it), 400 condivisioni
- Corsi di formazione per webmaster – Iscriviti ora (sito3.it), 200 condivisioni
- Corsi formazione 2016 webmaster (sito4.it), 50 condivisioni
Quello che verrà fuori, insomma, è una classifica in cui, ad esempio, su una colonna metteremo l’URL o il titolo dell’articolo, e sull’altra il numero di like in ordine decrescente (dal più grande al più piccolo). Proviamo ora a cercare su Google “corsi per webmaster”, e prendiamo nota dei primi 4 risultati.
Per lo scopo del nostro esempio, poniamo che l’ordine dell’uno e dell’altro coincidano: stiamo simulando il processo di inganno della correlazione, ed è questo il punto cruciale da considerare. A questo punto, infatti, saremmo tentati dal trarre una conclusione dall’esperimento: Google ordina i risultati di ricerca in base al numero di condivisioni!
Conclusione che non deve portarci fuori strada, tuttavia: il fatto che l’ordine di share decrescenti corrisponda con l’ordinamento che Google fornisce per quei risultati non vuol dire affatto che Google abbia ordinato in base al numero di share! Questo perchè esiste certo una correlazione inversa molto forte tra le due misure (ovvero il numero di share da un lato, e la posizione su Google dall’altro), ma questo non vuol dire che una sia influenzata in alcun modo dall’altra.
Correlazioni spurie
…ogni volta che si usano dei fatti per supportare una conclusione precostituita si è disonesti. La scienza non è affatto immune: è estremamente facile sostituire «correlazioni» con «cause» per provare qualsiasi cosa uno voglia, come per esempio che la diminuzione dei pirati causa il surriscaldamento globale (B. Henderson).
Il mio scetticismo è legato al fatto che si possono correlare quantità che non c’entrano nulla tra loro, come potrebbero esserlo il numero di condivisioni di un articolo sui social ed il posizionamento in prima pagina (non è detto che siano legati, o che uno “causi” l’altro). Del resto una delle correlazioni spurie più famose è riportata dal fisico americano Bobby Henderson, e lega apparentemente – in una sua brillante provocazione, di qualche anno fa – l‘aumento della temperatura media della terra con la diminuzione del numero di pirati.
Il senso del tutto è ancora più chiaro consultando le correlazioni spurie che sono state trovate sul sito Tylervigen: con diverse gradazioni percentuali, si tratta di correlazioni superiori al 60% (si noti come quelle davvero interessanti siano prossime al 100%, e come in molti blog SEO si riportino come “significative” correlazioni del 10 o del 20% tra titolo e posizione su Google della pagina).
- Spese annuali USA per scienza, spazio e tecnologia correlato fortemente con Numero annuale di suicidi per impiccagione, strangolamento e soffocamento
- Numero annuale di persone morte annegate in piscina correlato con Numero di film per anno in cui è comparso Nicolas Cage
- Consumo mensile di formaggio correlato con Numero di persone morte impigliate nelle proprie lenzuola
- Numero di divorzi annuali nel Maine correlato con Consumo di margarina pro capite
Attenzione, quindi, a non farci portare fuori strada da analisi che, di fatto, periodicamente vengono riproposte anche (purtroppo) su blog autorevoli del settore.
Nota: questo post deve molto, tra l’altro, alle mie letture su argomenti scientifici (Dawkins, Odifreddi e molti altri), a Bobby Henderson ( fonte ) a tutti i pastafariani e – non ultimo come importanza – all’impostazione fornita dal blog LowLevel.it. Il minimo che possa fare, senza perdermi in altri inutili ricami, è dire loro “grazie”.