Qualsiasi professionista che si occupa di digital marketing sa perfettamente che l’indicizzazione, il posizionamento sulle classifiche SERP e l’ottimizzazione dei contenuti sono gli aspetti fondamentali per avere successo in questo campo ma, per fare ciò, è fondamentale conoscere in che modo i motori di ricerca, attraverso i web crawler assegnano un punteggio ad un contenuto o ad una pagina online.
Difatti, ogni volta che si crea un contenuto o una nuova pagina web, a questa viene assegnato a un determinato punteggio che la colloca in una certa posizione rispetto alle ricerche effettuate dagli utenti.
Elementi come keyword principali o correlate, cura del SEO, meta title e description sono pane quotidiano per qualsiasi copywriter o SEO analyst che si approcciano alla creazione di nuovi elementi web. Tuttavia, è necessario conoscere il modo in cui i motori di ricerca (da adesso in poi utilizzeremo solo Google nei nostri esempi per comodità) analizzano e assegnano il posizionamento a tali contenuti.
Un web crawler, chiamato anche spider o bot, non è altro che un software che naviga sistematicamente nel World wide web, al fine di indicizzare i contenuti presenti su Internet.
Questo software analizza automaticamente i contenuti presenti all’interno di un database, in questo caso rappresentato dall’intero web, per creare un indice e permettere una visualizzazione più semplice agli utenti durante le ricerche.
Detto ciò, andiamo a vedere nello specifico che cos’è un web crawler, come funziona e in che modo queste analisi sono in grado di rendere la navigazione in Internet molto più semplice e precisa agli utenti.
Un crawler di un motore di ricerca è un software che scarica e indicizza contenuti presenti in ogni angolo di Internet, con l’obiettivo di conoscere quale argomento tratta ogni pagina, o quasi, presente in rete, in modo che queste informazioni possano essere recuperate nel momento del bisogno, ovvero di una ricerca da parte degli utenti.
Questi bot vengono chiamati web crawler, perché crawling è il termine tecnico che viene utilizzato per indicare l’accesso ad un sito web e il recupero dei dati ottenuti tramite un programma informatico.
Applicando un algoritmo di ricerca ai dati raccolti dai web crawler, i motori di ricerca sono in grado di fornire link utili in risposta alle query degli utenti, in modo da generare un elenco di pagine web ogni volta che un utente effettua la sua ricerca su Google.
Provando a semplificare il concetto, un web crawler può essere paragonato tranquillamente ad una persona che passa in rassegna ogni pagina di ogni libro contenuto in una biblioteca disordinata e, successivamente, le cataloga ad una ad una a seconda di argomenti, parole chiave e tantissimi altri elementi.
In questo modo, le persone che visitano la biblioteca, ossia gli utenti web, sono in grado di reperire in maniera semplice e veloce tutte le informazioni di cui hanno bisogno.
Ovviamente, a differenza di una biblioteca il web è un posto molto più ampio per cui, anzitutto è molto difficile che un bot riesca ad analizzare ogni singolo contenuto ed ogni singola pagina, in seconda battuta è anche difficile capire da dove iniziare l’analisi.
Per risolvere questo dilemma e trovare tutte le informazioni pertinenti che Internet offre, i web crawler iniziano l’analisi da una serie di pagine web note, seguendo i collegamenti ipertestuali che rimandano ad altre pagine, le quali rimandano ad altre pagine e così via.
Ad oggi, non è possibile sapere con esattezza la quantità dei contenuti web che i bot siano effettivamente in grado di analizzare, ma si ritiene che la percentuale stimata si attesti tra il 40 e il 70%.
Prima di parlare nello specifico di come effettivamente funzionano i web crawler, è necessario fare un piccolo passaggio sull’obiettivo finale di questi software: l’indicizzazione di ricerca.
Riprendendo l’esempio della biblioteca, si tratta di un procedimento molto simile alla creazione di un catalogo di una biblioteca che, applicato ad Internet, vuol dire fare in modo che Google sappia esattamente in che punto della rete recuperare le informazioni che vengono richieste da un utente.
L’indicizzazione si basa prevalentemente sul testo che appare sulla pagina e sui metadati della stessa, che gli utenti non vedono. Nel momento in cui Google indicizza una pagina, aggiunge all’indice tutte le parole contenute in questa pagina, ad eccezione di quelle trascurabili come “un” “una” “loro” “di” etc (queste eccezioni variano da motore a motore).
Nel momento in cui gli utenti cercano quelle parole chiave, Google scorre l’indice di tutte le pagine in cui compaiono queste parole e seleziona quelle più pertinenti.
Abbiamo accennato poc’anzi che i web crawler, seguendo i dettami di un algoritmo, analizzano e indicizzano i contenuti web partendo dagli URL più noti, per poi seguire collegamenti ipertestuali. Ovviamente si tratta del riassunto del riassunto di come realmente funzionano questi bot per cui, dopo aver assimilato le informazioni fornite finora, addentriamoci più nello specifico.
Internet è un mondo in continua espansione e in continuo mutamento e, come già accennato, è impossibile sapere quante pagine web siano presenti in esso, motivo per cui i web crawler non sono in grado di analizzare ogni singolo contenuto.
Tuttavia, i bot posseggono un metodo analitico grazie al quale riescono a compiere il loro lavoro. Per iniziare, l’analisi viene eseguita prendendo in considerazione una lista di URL noti e scandagliando le pagine collegate a quegli URL.
Man mano che si avanza lungo le pagine, si tende a incontrare collegamenti ipertestuali che rimandano ad altri URL e, aggiungendo questi nuovi URL alla prossima lista di pagine da scandagliare, si aumenta il numero dei contenuti analizzati.
Considerando l’immensa quantità di pagine presenti sul web, questo processo potrebbe proseguire quasi all’infinito, tuttavia, un web crawler segue alcune politiche che lo rendono più selettivo nella scelta delle pagine da analizzare, nell’ordine in cui analizzarle e con quale frequenza farlo, al fine di controllare gli aggiornamenti dei contenuti.
La maggior parte dei web crawler non scandaglia nella sua interezza Internet e non è neanche stata concepita per farlo. Questi software decidono quali pagine scandagliare per prime, sulla base della quantità di pagine che si collegano ad esse, sulla base della quantità di visitatori che queste ricevono, e di altri fattori che indicano la probabilità che queste pagine contengano informazioni pertinenti.
L’idea di fondo è che una pagina web citata da molte altre, e che riceve un elevato numero di visite, contenga informazioni autorevoli e di qualità. Pertanto, è di particolare importanza che un motore di ricerca la includa nei propri indici, motivo per cui il link building è una strategia di marketing eccezionale, specialmente per i business non ancora consolidati.
Un altro fattore da considerare e che sul web i contenuti vengono aggiornati, rimossi o spostati continuamente e i crawler devono, quindi, rivisitare periodicamente tutte le pagine per fare in modo che venga indicizzata l’ultima versione del loro contenuto.
Tutti questi fattori vengono ponderati in modo diverso dagli algoritmi che ciascun motore di ricerca incorpora nei suoi spider. I crawler di ogni motore di ricerca si comportano in modo leggermente diverso, anche se l’obiettivo è sempre il medesimo: scaricare e indicizzare contenuti dalle pagine web.
Noi di SEOM ti possiamo fornire una consulenza professionale per i servizi digitali e l’elaborazione di una strategia di comunicazione. Contattaci e ti aiuteremo a valorizzare la tua azienda. Scrivici ad info@seom.online oppure compila il forum qui.
Seguici per altre info… sempre su www.seom.online