Cela fait des mois qu’il est de plus en plus difficile de réussir l’indexation de l’ensemble des contenus d’un site voire même débuter une indexation pour un nouveau site.

Comment réussir un bon travail de soumission d’urls pour les principaux moteurs de recherche ?

Il y a évidemment la Search console via les outils de soumission. Mais de manière étonnante, la soumission ne donne plus des résultats immédiats. On pensera également au Webmaster tools de Bing un peu plus rapide mais ayant une portée moindre.
Il y a aussi le projet IndexNow qui devrait faciliter ce travail de soumission/indexation via un projet poussé par Bing. Mais malheureusement Google a pour l’instant juste promis de s’y intéresser. Un outil de soumission/indexation sans Google, cela devient tout de suite moins intéressant. À cela on ajoute la complexité de travailler ou non avec Yandex… Pour découvrir le projet Index Now.

IndexNow est un moyen facile pour les propriétaires de sites Web d’informer instantanément les moteurs de recherche des dernières modifications de contenu sur leur site Web. Dans sa forme la plus simple, IndexNow est un simple ping permettant aux moteurs de recherche de savoir qu’une URL et son contenu ont été ajoutés, mis à jour ou supprimés, permettant aux moteurs de recherche de refléter rapidement ce changement dans leurs résultats de recherche.

Sans IndexNow, les moteurs de recherche peuvent mettre des jours, voire des semaines, à découvrir que le contenu a changé, car les moteurs de recherche n’explorent pas souvent toutes les URL. Avec IndexNow, les moteurs de recherche connaissent immédiatement « les URL qui ont changé, ce qui les aide à hiérarchiser l’exploration de ces URL et limite ainsi l’exploration organique pour découvrir de nouveaux contenus ».

IndexNow est proposé selon les termes de la licence Attribution-ShareAlike Creative Commons et bénéficie du support de Microsoft Bing, Yandex.

Google apporte une réponse détaillée sur l’exploration et indexation avec John Muller sur Reddit

Il n’existe aucun moyen objectif d’explorer correctement le Web.

Il est théoriquement impossible de tout explorer, car le nombre d’URL réelles est effectivement infini. Étant donné que personne ne peut se permettre de conserver un nombre infini d’URL dans une base de données, tous les robots d’exploration Web font des hypothèses, des simplifications et des suppositions sur ce qui vaut réellement la peine d’être exploré.

Et même dans ce cas, pour des raisons pratiques, vous ne pouvez pas explorer tout cela tout le temps, Internet n’a pas assez de connectivité et de bande passante pour cela, et cela coûte très cher si vous souhaitez accéder régulièrement à de nombreuses pages. (pour le crawler et pour le propriétaire du site).

Après cela, certaines pages changent rapidement, d’autres n’ont pas changé depuis 10 ans. Les crawlers essaient donc d’économiser leurs efforts en se concentrant davantage sur les pages qu’ils s’attendent à modifier, plutôt que sur celles qu’ils s’attendent à ne pas modifier.

Et puis, nous abordons la partie où les crawlers essaient de déterminer quelles pages sont réellement utiles. Le Web est rempli de déchets dont personne ne se soucie, de pages qui ont été spammées jusqu’à devenir inutiles. Ces pages peuvent encore changer régulièrement, elles peuvent avoir des URL raisonnables, mais elles sont juste destinées à la décharge, et tout moteur de recherche qui se soucie de leurs utilisateurs les ignorera. Parfois, il ne s’agit pas seulement de bric-à-brac non plus. De plus en plus, les sites sont techniquement corrects, mais n’atteignent tout simplement pas « la barre » d’un point de vue de la qualité pour mériter d’être explorés davantage.

Par conséquent, tous les robots d’exploration (y compris les outils de référencement) fonctionnent sur un ensemble d’URL très simplifié, ils doivent déterminer la fréquence d’exploration, les URL à explorer plus souvent et les parties du Web à ignorer. Il n’y a pas de règles fixes pour tout cela, donc chaque outil devra prendre ses propres décisions en cours de route. C’est pourquoi les moteurs de recherche ont des contenus indexés différents, pourquoi les outils de référencement répertorient différents liens, pourquoi toutes les mesures construites sur ceux-ci sont si différentes.

Voir la conversation sur Reddit

Principales raisons des failles de Google sur l’exploration et indexation

Il faut avant tout noter que techniquement il est impossible de crawler l’ensemble du web
Les contenus ont un taux de modification très variable : mises à jour fréquentes ou non
La mauvaise qualité des contenus qui reste très importante sur l’ensemble du web, un grand nombre de pages inutiles
Le coût d’une exploration pour les moteurs de recherche et les outils de référencement
Une exploration par échantillonnage à la manière des statisticiens pour découvrir la partie du web méritant un crawl et une mise à jour de l’index

A lire sur le même thème : Fin de la barre de PageRank

Pour résumer encore une fois, le problème d’indexation revient surtout à la responsabilité des éditeurs de site et non de Google. Si votre site est de qualité et répond à tous les indicateurs de Google, il sera indexé. Et on retrouve donc l’avantage donné à un certain nombre de sites qui sont depuis toujours cajolés par l’algorithme de Google, des sites présentant un grand nombre de pages, des sites e-commerce… Pour les autres, il va falloir continuer à ruser !

Est-ce que cet article vous a été utile ?

Cliquez sur l'étoile pour donner votre avis

Tous les avis : 5 / 1

Soyez le premier, la première à donner votre avis

Analyse with AI

Summarise with ChatGPT Examine with Perplexity Analyse with Claude