Pour bien comprendre comment Google analyse votre site Web, il est important de comprendre comment il recherche votre site. Bien sûr, ce ne sont pas les employés de Google qui consultent les pages une par une, mais le robot qui le fait : Googlebot. Comment ça marche ? Quel est son but? Comment améliorer ses pages pour faciliter sa transition ? Pouvons-nous lui faire explorer nos sites plus souvent ? Trouvez les réponses à vos questions dans cet article.
GoogleBot : définition et fonctionnement
Le Google Bot est essentiellement un robot qui indexe (ou « indexe ») votre site. A voir aussi : Pourquoi les références SEO ?. Ce type de système peut également être appelé « araignée ».
Ce robot d’exploration intéresse à la fois les éditeurs de sites Web et Google.
Pour vous qui gérez le site Web, il s’agit de la passerelle permettant d’indexer les pages de votre site Web dans les résultats de recherche. Il recherchera les informations dont il a besoin et décidera d’indexer ou non votre page dans les résultats de recherche. Autrement dit, si vous souhaitez optimiser le lien naturel vers votre site, vous devez déjà passer par cette étape pour espérer être visible.
De son côté, Google s’y intéresse en triant les pages méritantes ou non affichées sur les pages de résultats de recherche.
Ce n’est qu’après qu’elles auront été indexées et indexées que Google décidera où et comment vos pages pourront être affichées (leur référence naturelle).
Voici les 3 étapes du classement des pages : Indexation & gt; Indexation & gt; Classification.
Si Googlebot rencontre un problème lors de l’indexation de votre site (page bloquée en robots.txt, page canonique, page correspondant à 500, 404, 301, 302, balise noindex, etc.), vos pages ne seront pas crawlées et naturellement référencées. sera forcément puni.
Pour afficher les principales erreurs de crawl de Google, vous pouvez utiliser un outil d’analyse de crawl professionnel tel que ScreamingFrog, SEOlyzer ou OnCrawl, ou consulter le rapport « Couverture » pour les erreurs de crawl dans votre compte Google Search Console.
Quand passe le robot Google ? À quelle fréquence crawle-t-il les pages ?
La fréquence des visites sur Google Bot varie selon le site. Lire aussi : Ne demandez pas à votre agence SEO si c’est impossible !.
Cela va de quelques minutes à plusieurs jours.
La vitesse d’exploration de Google varie en fonction de la taille du site, de la fréquence des nouvelles pages et des mises à jour des pages existantes.
Si vous ne publiez ou ne mettez à jour des pages que tous les 3 mois, GoogleBot peut avoir une fréquence de visite assez faible.
Qu’est-ce que le crawl budget et comment l’optimiser ?
Une autre chose à considérer à propos de l’indexation de GoogleBot est le budget d’indexation. Ceci pourrez vous intéresser : Comment améliorer le référencement naturel de WordPress ? – JCM | Journal du gestionnaire de communauté.
Comme son nom l’indique, il s’agit d’un laps de temps spécifique pendant lequel Google indexe votre site.
Pour chaque site, Google allouera des ressources et un temps d’exploration spécifique.
Le but de tout référencement est donc de diriger le bot Google vers les pages les plus pertinentes à consulter. Dans le même temps, au contraire, vous devrez également éviter de dépenser trop de ressources sur des pages non orientées SEO.
Pour cela, différentes stratégies sont envisageables et peuvent être mises en œuvre conjointement :
Googlebot n’est pas le seul User-Agent
Googlebot est appelé le client de l’utilisateur. Un robot comme celui-ci est le client de l’utilisateur. Google utilise Googlebot non seulement pour indexer ce qui se passe sur votre site. Vous pouvez trouver AdsBot qui vérifie la qualité de vos annonces, AdSense ou Google API. Il existe également différentes versions de Googlebot pour Google Images, Google News et Google Video.
Pour interagir avec eux, vous devez suivre diverses instructions, notamment pour le fichier Robots.txt ou les balises Meta, que vous pouvez trouver ici : https://developers.google.com/search/docs/advanced/crawling/overview – google-crawlers? hl = fr & amp; ref_topic = 4610900 & amp; visit_id = 637843187863289655-38369794 & amp; rd = 1.
Comment améliorer l’exploration de ses pages par le Googlebot ? 6 astuces à appliquer
Bien gérer son fichier robots.txt
C’est l’un des points les plus importants à vérifier. Dans ce fichier, vous demandez spécifiquement aux robots de Google de leur dire ce qu’il faut enquêter et ce qu’il ne faut pas enquêter. Si on veut faire un parallèle avec le budget d’indexation, on peut dire que vous lui expliquez à quoi il doit consacrer ce budget.
Si vous ne donnez aucun indice au robot, il enquêtera sur tout. Par conséquent, il est préférable de fournir une explication de ce que le crawler doit indexer en fonction de ce que vous souhaitez voir indexé sur google ou non.
Donner des instructions via les balises Meta ou X-Robots-Tag
En plus du fichier robots.txt, vous pouvez entrer des instructions directement depuis le code de vos pages.
Vous pouvez saisir des informations dans les balises META. Ajoutez simplement une balise meta dans l’en-tête avec l’attribut « name » qui cible le robot que vous souhaitez instruire et l’attribut « content » qui donne la directive. Si vous entrez « name= »robots » », vous dirigerez tous les robots (user agent). Par exemple, si vous souhaitez simplement indiquer à Google Bot qu’il ne doit ni indexer ni indexer une page Web, vous pouvez insérer cette balise dans l’en-tête des pages concernées :
& lt; meta name = « googlebot » content = « noindex, nofollow » & gt;
Il est également possible de passer des instructions dans la balise d’en-tête en utilisant l’en-tête HTTP « X-Robots-Tag ». Vous pouvez ajouter des informations telles que « noindex » pour bloquer l’indexation mais pas l’accès au contenu, « nofollow » pour empêcher le crawler d’y accéder, ou « noarchive » pour contrecarrer l’archivage. Vous pouvez combiner ces 3 si vous avez besoin.
Créer son fichier sitemap.xml
Le fichier sitemap est un composant important qui peut aider à guider l’exploration de GoogleBot. Il s’agit d’un fichier qui renseigne Googlebot sur la structure de votre site web, facilitant ainsi la recherche et donc l’indexation de vos pages. Il s’agit d’un fichier important qui favorise l’indexation de toutes les pages demandées. Sans cela, Google peut manquer des pages en raison d’un lien interne défectueux ou d’un autre problème technique.
Il s’agit d’un fichier .xml que vous pouvez déclarer dans la Search Console ou dans le fichier robots.txt que nous avons vu plus haut.
Fournir du contenu frais en permanence
Comme mentionné, la fréquence d’indexation dépend en partie du rythme de publication des nouvelles pages et de mise à jour des pages existantes. Plus vous mettez à jour de contenu et plus vous publiez de nouveautés, plus le crawler explorera votre site.
Améliorer le maillage interne du site
Le maillage interne est très important dans le référencement en raison du « transfert de puissance » entre les pages. Dans le cas de Googlebot, ces liens internes entre les pages sont également très importants. Ce sont les liens qui guideront le robot dans votre site. Une page qui ne reçoit pas de lien sera plus difficile à indexer et risquera donc de ne pas être indexée.
Assurer des performances correctes (temps de chargement et technique)
Un site peu performant qui met du temps à répondre sera indexé moins fréquemment. Google accorde de plus en plus d’attention aux critères d’expérience utilisateur, et l’un d’eux est la performance du site Web. Le budget de crawl diminuera car Google estime que s’il utilise trop de bande passante, les visiteurs du site seront pénalisés.
C’est la même chose du côté technique de votre site Web. Certains types de contenus ne sont pas lus par Googlebot, et plus le code est compliqué à lire, moins le robot pourra en utiliser car cela nécessite plus de requêtes et donc un budget plus important. Vous pouvez limiter cela en minimisant tout en HTML, CSS ou JavaScript. C’est aussi une bonne idée d’avoir des images aussi lumineuses que possible, ainsi que d’installer une solution de mise en cache pour limiter le chargement des éléments. Pour que votre site internet soit un succès à l’international, il peut être intéressant de profiter du CDN.
Comment augmenter la fréquence de crawl de Google ?
Il n’y a pas de solutions miracles pour augmenter la vitesse de crawl de Googlebot. C’est une bonne idée de fournir des mises à jour et des publications régulières sur le site.
Si vous suivez les différents conseils que nous avons vus dans la section précédente, vous devriez pouvoir optimiser votre exploration et ainsi optimiser votre budget d’indexation. Cela n’augmente pas strictement la fréquence, mais permet une meilleure qualité d’exploration.
Cependant, vous pouvez réduire le taux d’exploration de Googlebot si vous remarquez qu’il affecte négativement les performances de votre site Web. Google déconseille de limiter cet aspect, mais rien ne vous en empêche. Vous devrez tout de même faire une « demande spéciale » si votre vitesse de crawl est déjà jugée optimale.
Vous pouvez également le faire en bloquant l’exploration dans votre fichier robots.txt ou en retournant le code HTTP 5XX/429. Vous savez déjà comment fonctionne Googlebot et comment optimiser l’indexation de votre site web. Si vous avez des questions à ce sujet, n’hésitez pas à les poster dans la section des commentaires ci-dessous.