Il crawl budget (budget di scansione) può essere definito come il livello di attenzione che i motori di ricerca danno al tuo sito web. Questo livello di attenzione si basa sulla frequenza con cui desiderano eseguire la scansione e sulla frequenza con cui un sito web può essere sottoposto a scansione.

Se stai sprecando il tuo crawl budget, i motori di ricerca non saranno in grado di eseguire la scansione del tuo sito web in modo efficiente, il che finirebbe per danneggiare le tue prestazioni SEO.

Ogni brand desidera dominare le SERP di Google quindi investe risorse per portare le proprie pagine web nelle posizioni TOP TEN.

È necessario rendersi conto che l’ottimizzazione dei motori di ricerca (SEO) è diventata molto tecnica. Se vuoi posizionarti nelle SERP di Google, devi superare le dinamiche della SEO tecnica per battere la concorrenza.

Ciò significa che è necessario iniziare a pensare oltre il posizionamento delle parole chiave e la pubblicazione di post su siti web di terzi per la generazione di backlink.

In questo articolo, introdurrò due importanti aspetti della SEO tecnica: la crawl equity e i log dei server. Questi sono importanti perché se i bot di Google non visitano regolarmente il tuo sito web, tutti i tuoi sforzi in ottica SEO possono potenzialmente andare in fumo.

Cos’è il Crawl Budget

Google e altri motori di ricerca assegnano a ciascun dominio un crawl budget giornaliero limitato che determina il numero di pagine del tuo sito web che verranno sottoposti a scansione dagli spider (Googlebot).

Il crawl budget viene calcolato in base a due fattori:

  1. Crawl rate limit: il numero di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione del sito
  2. Crawl demand (richiesta di scansione): Questa parametro indica quanto il sito sia meritorio di essere scansionato.

In genere, i gestori di siti web più piccoli con poche migliaia di URL non devono preoccuparsi del crawl budget. I motori di ricerca possono facilmente eseguire la scansione della maggior parte delle pagine web. Tuttavia, se hai un sito di grandi dimensioni con migliaia o addirittura milioni di pagine, ti consigliamo di utilizzare il tuo crawl budget per aumentare strategicamente la tua visibilità online.

Il Crawl Budget è importante?

In genere desideri che i motori di ricerca trovino e comprendano il maggior numero possibile di pagine indicizzabili e vuoi che lo facciano il più rapidamente possibile. Quando aggiungi nuove pagine e aggiorni quelle esistenti, vuoi che i motori di ricerca le indicizzino il prima possibile: prima lo fanno, prima puoi trarne vantaggio.

Se stai sprecando il crawl budget, i motori di ricerca non saranno in grado di eseguire la scansione del tuo sito web in modo efficiente. Trascorreranno del tempo su parti del tuo sito che non contano, il che può portare a parti importanti del tuo sito web da scoprire.

Se non conoscono le pagine, non eseguiranno la scansione e l’indicizzazione e non sarai in grado di attirare visitatori attraverso i motori di ricerca.

Si capisce dove porta tutto questo: sprecare crawl budget danneggia la tua performance SEO.

Tieni presente che in genere devi preoccuparti del budget di scansione solo se hai un sito web di grandi dimensioni, diciamo di circa 10.000 pagine e oltre.

Crawl Budget

Fattori che influenzano il Crawl Budget

I seguenti fattori influiscono in modo significativo sul crawl budget assegnato al tuo sito web.

  • PageRank

La Crawl demand (e quindi anche il crawl budget ) è direttamente correlata all’autorità del dominio e al link equity. La crawl demand segnala a Google che il tuo sito è autorevole e di fiducia. Maggiore è il tuo PageRank, più Google eseguirà la scansione del tuo sito alla ricerca di nuovi contenuti.

  • Tempo di risposta del server

Il tempo di risposta del server è il tempo impiegato dal server dove è ospitato il sito web per rispondere alla richiesta del visitatore. Viene anche chiamato Time To First Byte (TTFB). Secondo le linee guida di Google, un sito web non dovrebbe avere TTFB più alto di 200 ms . Testa il tuo sito web da uno strumento di test della velocità online e se supera i 200-300 ms migliora i tempi di risposta del server .

  • Struttura del sito

La corretta struttura del sito rende la navigazione facile per gli utenti e più semplice per i bot di scansione. La navigazione e i link interni determinano quanto il tuo sito sia adatto alla scansione.

Una gerarchia semplice e logica con le principali categorie, sottocategorie e singole pagine funziona meglio sia per i visitatori che per i crawler. La struttura del sito diventa un problema con siti più grandi che hanno una navigazione sfaccettata o quando le ricerche filtrano attraverso i parametri selezionati dall’utente.

Per migliorare questo fattore, struttura il tuo sito per la SEO per impedire la creazione di milioni di URL che confondono i bot e consumano il crawl budget.

  • Contenuto

Pagine di basso valore, contenuti obsoleti, spam e contenuti duplicati eliminano il prezioso budget di scansione.

Garantire la presenza di contenuti di qualità, originali e ad alto valore aggiunto su ciascuna delle pagine, impedisce ai crawler di perdere le sezioni più importanti del sito.

Inutile dire che anche siti web che contengono contenuti hackerati e possibili minacce per la sicurezza degli utenti sono ovviamente penalizzate e Google non vuole perdere tempo a scansionare ed indicizzare queste pagine. Consigliamo sempre di aggiornare i siti web mantenendo i CMS e relativi plugins sempre up-to-date!

Come determinare il crawl budget del tuo sito

Per determinare il crawl budget del tuo sito occorre utilizzare Google Search Console ed accedere alla sezione statistiche di scansione per il tuo sito, come mostrato nell’immagine seguente.

Statistiche Scansione nella Nuova Search Console

Accedendo a questa pagina si trovano appunto le statistiche di accesso al sito da parte dello spider di Google:

Statistiche Di Scansione Search Console

Dal rapporto descritto sopra, possiamo vedere che in media Google esegue ogni giorno la scansione di 526 pagine del nostro sito. Da ciò, posso capire che il mio budget di ricerca per indicizzazione mensile è 526 * 30 = 15.7800.

La velocità di scansione può essere soggetta a cambiamenti e fluttuazioni ma questo numero da una idea di quante pagine del tuo sito puoi aspettarti di sottoporre a scansione in un determinato periodo di tempo.

Se hai bisogno di una analisi più dettagliata (ad esempio quante volte il Google bot accede ad una specifica pagina) il passo successivo è dare una letta ai log del tuo server.

Cosa sono i log del server?

Passiamo a un concetto diverso per un momento.

Ogni volta che un utente (o bot di scansione) accede al tuo sito, il tuo server creerà un log. È un record di tutte le richieste che un server riceve durante un determinato intervallo di tempo.

I log del server contengono dati incredibilmente utili che puoi utilizzare per migliorare il design e la strategia del tuo sito web.

Ecco un esempio di una voce di registro del server da Wikipedia:

  • 0.0.1 user-identifier frank [10/Oct/2000:13:55:36 -0700] “GET /apache_pb.gif HTTP/1.0” 200 2326
Esempio di log del server

Quindi ecco una ripartizione del significato di ciascuna parte:

  • 0.0.1: è l’indirizzo IP dell’host remoto che ha richiesto l’accesso al tuo sito.
  • user identifier: l’identità RFC 1413 del cliente.
  • frank: l’ID utente del richiedente.
  • [10/oct/2000: 13: 55: 36 -0700]: è il timestamp della richiesta, inclusi la data, l’ora esatta e il fuso orario.
  • GET/apache_pb.gif HTTP/1.0: GET è uno dei due metodi (l’altro è POST) che fornisce maggiori informazioni sul comportamento dell’utente. GET ti dice che l’utente ha provato a recuperare i dati, in questo caso la risorsa in /apache_pb.gif. POST ti dice che l’utente ha inviato qualcosa al sito, come un modulo o un commento. HTTP/1.0 indica la versione HTTP a cui si accede.
  • 200: il codice di stato restituito dal tuo sito. Un codice di stato 200 indica che ha avuto successo, un codice di stato 300 è un redirect, un codice di stato 400 è un errore client e un codice di stato 500 è un errore del server.
  • 2326: il numero di byte scaricati al momento dell’accesso alla pagina.

In che modo il crawl budget può aiutare la SEO?

I log del server offrono una grande quantità di informazioni che è possibile utilizzare per comprendere il comportamento dei crawler. Se filtri i record per isolare gli spider dei motori di ricerca, otterrai una visione dettagliata e molto accurata di come scansionano le tue pagine web.

Le informazioni che acquisirai analizzando i log del server ti aiuteranno a apportare i miglioramenti necessari al tuo sito, posizionarti più in alto nella SERP, ottenere più traffico, convertire i clic in lead e convertire i lead in vendite.

Ecco alcune delle cose che puoi scoprire durante un’analisi dettagliata dei log del server:

  • Con quale frequenza Google esegue la scansione di una directory specifica
  • Problemi di prestazioni, lunghi tempi di caricamento o errori comuni del server
  • Link interrotti e contenuti duplicati
  • Pagine con troppe scansioni
  • Pagine con scansione insufficiente

Come sfruttare al massimo il crawl budget?

Poiché disponi solo di un crawl budget limitato, è fondamentale ottimizzare la strategia di crawl budget e reindirizzare gli spider dei motori di ricerca per indicizzare le pagine più importanti.

Ecco alcuni suggerimenti di base per ottimizzare il crawl budget a proprio vantaggio.

  1. Trova e correggi link non funzionanti, errori e redirect, come le pagine di errore soft 404 che potrebbero avere contenuti duplicati o pagine distaccate dalla struttura del tuo sito.
  2. Sostituisci i redirect temporanei 302 con redirect permanenti 301. I redirect 301 impediranno a Google di ripetere la scansione della pagina troppo spesso.
  3. Individua e risolvi immediatamente gli errori dei codici di stato 400/500.
  4. Utilizza il tag rel = nofollow per scoraggiare i bot dalla scansione di contenuti duplicati o utilizzare rel = canonical per reindirizzare i segnali di indicizzazione a un URL superset.
  5. Rimuovi contenuti di basso valore o duplicati o che restituiscono un codice di stato 404/410 su quelle pagine.
  6. Se utilizzi la navigazione a sfaccettature, utilizza i parametri URL anziché le directory o i percorsi dei file per visualizzare il contenuto filtrato.

Conclusione

Se il tuo sito non funziona come desideri, anche dopo aver ottimizzato e rivisto il contenuto, potrebbe essere il momento di esaminare i log del tuo server.

Comprendere i crawl budget e l’analisi dei log del server è un passo fondamentale verso una SEO migliore. Non puoi aumentare il crawl budget in una notte, ma puoi sfruttare al massimo il crawl budget che Google ti mette a disposizione

Buon lavoro.

FAQ

Cos’è il crawl budget?

Il vrawl budget non è un singolo numero ma un termine generale che descrive la frequenza e il numero di pagine che Google scansiona e indicizza da un determinato sito web e in un determinato periodo di tempo.

Come posso aumentare il mio crawl budget?

Google ha indicato che esiste una forte relazione tra l’autorità della pagina e il crawl budget. Più autorità ha una pagina, maggiore è il budget di scansione. In poche parole, per aumentare il crawl budget, devi migliorare l’autorità della tua pagina.

Cosa può limitare il mio crawl budget?

Il limite di crawl, noto anche come carico dell’host di scansione, si basa su diversi fattori, come le condizioni del sito web e le capacità dell’hosting. I crawler dei motori di ricerca sono impostati per impedire il sovraccarico di un sweb erver web. 
Se il tuo sito web restituisce errori del server o se gli URL richiesti scadono spesso, il budget di scansione sarà limitato. Allo stesso modo, se il tuo sito web viene eseguito su una piattaforma di hosting condivisa, il crawl budget sarà maggiore perchè devi condividerlo con altri siti web in esecuzione sullo stesso hosting.

Dovrei usare canonical URL e meta robot?

Sì, ed è importante comprendere le differenze tra problemi di indicizzazione e problemi di scansione.
I canonical URL e i tag meta robot inviano un segnale chiaro ai motori di ricerca su quale pagine mostrare nel loro indice, ma ciò non impedisce loro di eseguire la scansione delle altre pagine.
È possibile utilizzare il file robots.txt e la relazione link nofollow per gestire i problemi di indicizzazione.