Ottimizzazione e-commerce: sfruttare meglio il crawl budget

Ottimizzare un e-commerce lavorando (anche) sul file robots.txt per sfruttare al meglio il crawl budget, questo è in estrema sintesi il lavoro che voglio presentare in questo post.

Quando faccio ottimizzazione SEO per e-commerce c'è un'attività che mi dà particolare soddisfazione ed è proprio la configurazione del file robots per ottimizzare il crawl budget, un'attività che serve sia agli e-commerce avviati che hanno migliaia di pagine sia a quelli nuovi che hanno poche pagine ma un crawl budget ancora ridotto.

Il problema degli e-commerce

Uno dei grossi problemi che hanno i siti di e-commerce è la generazione automatica ed incontrollata di url dovute ai filtri, wishilist, send to a friend, ecc, tutti ottimi strumenti per l'utente che però hanno il difetto di generare un'infinità di pagine inutili e duplicate.

La conseguenza è che i motori di ricerca si ritrovano a scansionare migliaia di pagine inutili che non hanno nessuna utilità ai fini del posizionamento poichè non offrono nessun valore aggiunto agli utenti che cercano un prodotto, servono solo all'utente che in autonomia decide di utilizzare il filtro o la wishlist.

L'esito finale è uno spreco di crawl budget che può portare all'impossiiblità da parte dei crawler di scansionare le pagine importanti dello shop come prodotti e categorie, con il risultato di vedersi indicizzate magari solo 1.000 pagine a fronte di un catalogo di 5.000 prodotti.

SEO per e-commerce: configurare il file robots.txt

L'immagine allegata mostra i response code rilevati da Screaming Frog in una scansione che simula Googlebot, prima e dopo aver messo le mani sul file robots.

Nella parte sinistra dell'immagine si vede una preponderanza della zona rossa, centinaia di migliaia di pagine senza response code. Questi sono proprio gli url generati automaticamente dalle innumerevoli combinazioni di filtri, una quantità enorme se paragonata alla piccola porzione verde che rappresenta i contenuti reali e rilevanti (pagine ed immagini).

Il grafico circolare indica chiaramente la gravità del problema: il 90% delle pagine scansionate dal crawler sono inutili ai fini del posizionamento.

Il secondo grafico con preponderanza della zona verde è invece il risultato dello stesso sito analizzato dopo la configurazione del file robots con un esito ben diverso: il 99% delle pagine scansionate rispondono con un codice 200 che significa OK.

Il lavoro svolto ci ha permesso di

  • ridurre il numero di url sottoposte a scansione
  • concentrare il lavoro dei crawler sulle pagine importanti
  • sfruttare meglio il crawl budget disponibile.

Va considerato che nella prima scansione era già attivo un file robots con alcune impostazioni di base, non era proprio ad un livello zero!

Un altro dato interessante è il tempo impiegato per completare la scansione, eseguita con lo stesso computer e con la stessa connessione:

  • 18 ore nel primo caso
  • 3 ore nel secondo caso

circa l'84% di tempo in meno per lo stesso sito web!