In questo articolo proveremo a spiegare la differenza tra indicizzazione e posizionamento, per evitare che si facciano errori concettuali che possono portare a potenziali incomprensioni. In breve, l’indicizzazione è una fase ben distinta dal posizionamento: la prima fa riferimento al processo di acquisizione dei dati del sito (internamente) da parte di Google o Bing, mentre la seconda fa riferimento ad un processo di classificazione e illustrazione dei risultati all’utente finale (esternamente). Andiamo ad approfondire il concetto concedendoci qualche spiegazione storica che, di fatto, aiuterà a chiarirci le idee una volta per sempre.
Cosa vuol dire indicizzazione sui motori, spiegato bene
Il concetto di indicizzazione risale almeno agli anni Settanta, periodo in cui si iniziano a diffondere le idee di Information Retrieval: una scienza interdisciplinare la cui la paternità viene usualmente attribuita al proto informatico Calvin Northrup Mooers (1919 – 1994). Information Retrieval significa “reperimento dell’informazione” e fa riferimento alle tecniche per archiviare i dati focalizzandosi sugli aspetti chiave dello stesso, in modo multi-formato (documenti, video, file audio, …) e multi-disciplinare (molti concetti di IR afferiscono al campo psicologico, ad esempio).
Se ad esempio dovessimo progettare un motore di ricerca che lavora su file di testo, la cosa più immediata e newbie sarebbe quella di salvarne i contenuti all’interno di un indice, in modo che sia più immediato reperire i contenuti in seguito. Ovviamente questo presenza una duplice valenza da considerare: da un lato, dipende dalle parole chiave che usa l’utente per cercare (che possono essere imprevedibili), dall’altro pone il dilemma di comprendere quali siano le parole chiave rilevanti nel testo. Quando si legge un testo, ad esempio, si tende a “indicizzare” il contenuto dello stesso focalizzandoci sui concetti chiave, limitandoci a leggere alcune aree dello stesso (classico esempio: leggere solo il titolo) con il rischio di perdere di vista il vero significato del documento stesso. Quando si indicizza un documento (dove, per intenderci, non parliamo per forza di un documento Word ma – per estensione – di una pagina web, di un file di testo, di un PDF, di un video su Youtube e così via) non si fa altro se non riassumere i contenuti dello stesso individuandone vari concetti chiave, effettuando una scansione del documento stesso (eventualmente più volte) e “prendendo nota” di quelli che sono gli aspetti più rilevanti. Così facendo, l’indicizzazione salva in un database i concetti chiavi e li cataloga: ad esempio per ogni documento individua l’autore, il titolo, le parole chiave più rilevanti e/o frequenti, e poi offre al client il proprio database in modo che possa ricercare le parole stesse. Se alla base dei motori di ricerca c’è questo concetto non va dimenticato, peraltro, che si tratta degli stessi criteri che portano alla classificazione dei libri di una biblioteca, ad esempio, dei titoli presenti su piattaforme di streaming e così via.
Per l’Information Retrieval l’approccio all’indicizzazione dei dati può essere automatizzato in vari modi, sfruttando vari modelli matematici (algebrico, probabilistico, ibrido …) combinati con il concetto di “interdipendenza” dei termini (terms) utilizzati nei dati. Il concetto di termini è molto generico, in questa sede, e può fare riferimento sia a dati che a meta dati (meta description, tag su Youtube, ecc.). Ogni approccio ha i propri pro e contro, chiaramente, tanto più oggi che esiste l’intelligenza artificiale ed è sempre più sviluppata e diffusa. Alla base di tutto, pertanto, c’è sempre l’idea che il software faccia un “riassunto” del testo e renda ricercabili le parole chiave dello stesso, badando bene che con “parola chiave” intendiamo, in questo contesto, sia la parola “casa” che la frase “casa al mare“, ad esempio.
Alla base di questa indicizzazione vi è, peraltro, l’idea che il contenuto vada scansionato e successivamente parserizzato, ovvero scomposto nei termini essenziali in modo che si possano individuare le parole chiave rilevanti. Nel titolo di questo articolo, ad esempio:
Differenza tra indicizzazione e posizionamento
secondo vari criteri potremmo decidere, algoritmicamente (cioè in automatico) che le parole chiave sono “differenza“, “indicizzazione“, “posizionamento“, tralasciando “tra” ed “e” che non possiedono potenziale informativo, e che peraltro differenza è in relazione con indicizzazione e posizionamento (che sono, a loro volta, in relazione di similarità tra loro).
L’information retrieval è definita in modi spesso difficili da trasmettere ai non addetti ai lavori, ma non è un “libro sacro” e non è tendenzialmente una scienza esatta. Di sicuro, non deve essere confusa con altro e possiede una definizione chiara e oggettiva:
L’indicizzazione sui motori di ricerca è il processo automatico con cui il contenuto delle pagine web viene scansionato e classificato nei termini più importanti, in modo da fornire supporto per la successiva ricerca da parte degli utenti. Nella realtà delle cose il WWW (World Wide Web) è una rete delle reti piena di pagine web con strutture, contenuti e forme differenti tra di loro: periodicamente un processo software che può lavorare in parallelo (Multi-threaded downloader) estrae il testo rilevante (nel senso appena visto) e i meta dati presenti in tutte le pagine, facendosene una copia (storage). Ogni pagina è identificata, nel tempo, da un URL, e poichè gli URL sono molto numerosi sono messi in coda (Queue, dal francese “coda”) e viene schedulata (cioè programmata) una scansione anche in seguito, di continuo. In questo modo si completa il ciclo: le pagine web vengono analizzate periodicamente e riflettono, periodicamente, i cambiamenti in termini di tale scansione periodica. L’indicizzazione avviene subito dopo la fase di scaricamento del contenuto aggiornato, volta per volta.
Cos’è il posizionamento, spiegato bene
A questo punto, una volta chiarito cosa sia l’indicizzazione per un motore di ricerca, e compreso che si tratta di un concetto mutuato dall’Information Retrieval (la scienza che si occupa di stabilire come rendere ricercabili i dati), abbiamo compreso che essa permette la catalogazione ed il “riassunto” di qualsiasi informazione sia scomponibile. Ma poi cosa succede? Il “poi” è fondamentale da inquadrare, in questo contesto.
Una volta che un motore di ricerca ha scaricato, scansionato e catalogato i propri dati, può mettere a disposizione una finestra di ricerca in cui gli utenti possano effettuare le ricerche. Il posizionamento su Google, a questo punto, farà riferimento alla posizione che occupa un risultato relativo ad un sito nei risultati di ricerca (SERP).
Differenza tra posizionamento e indicizzazione, spiegata (finalmente!)
L’indicizzazione su Google sarà una fase ben distinta dal posizionamento, in cui abbiamo semplicemente acquisito i dati sulla pagina web secondo lo schema riportato anche nell’immagine, per cui potremmo dire che:
l’indicizzazione su Google di un URL fa riferimento alla presenza nell’archivio o indice dei dati di quella pagina (titolo, immagini, testo, ecc.), e non è una fase normalmente visibile dall’esterno da utente anonimo;
il posizionamento su Google di un URL fa riferimento alla posizione nei risultati di ricerca di quello specifico contenuto. Questa fase è visibile dagli utenti che usano il motore, e può variare in funzione di numerosi fattori in ballo. Posizione che, peraltro, farà riferimento a numerosi fattori combinati (i pluri-celebrati 200 fattori di posizionamento che, in realtà, sono una “semplificazione giornalistica” di un concetto informatico ancora più difficile). A condizionare l’indicizzazione a livello di webmaster, diciamo, c’è un aspetto legato alla strutturazione delle pagine ed alla sua correttezza sintattica / semantica; a condizionare il posizionamento, invece, ci sono scelte degli ingegneri del software su come valutare le pagine, sia a livello interno che a livello di riferimenti dall’esterno (backlink), ingegneri che hanno stabilito, a suo tempo (e continuano a stabilire) quale pagina web vada a posizionarsi prima di un’altra, e per quale ragione.