La discorde actuelle entre Cloudflare et Perplexity met en lumière les défis de la recherche AI, notamment en matière de crawl des sites web. Cloudflare accuse Perplexity d’utiliser des techniques de « stealth crawling » pour accéder à des contenus qu’il ne devrait pas pouvoir toucher.
Les accusations de Cloudflare
Cloudflare affirme que Perplexity fait appel à des bots déclarés lorsque cela est possible, mais qu’il a recours à des méthodes de contournement, telles que l’imitation du comportement normal des navigateurs et la rotation d’adresses IP, lorsqu’il est bloqué. Ces tactiques, jumelées à l’ignorance des règles du fichier robots.txt, rappellent les comportements de scrapers malveillants.
La défense de Perplexity
Face à ces accusations, Perplexity soutient que ses requêtes sont effectuées au nom des utilisateurs et non en tant que crawling préventif. L’entreprise décrit ses actions comme des récupérations en temps réel, analogues à ce qu’un navigateur ou un client de messagerie ferait.
Impact sur le contrôle des contenus
Cette situation soulevée par Cloudflare est cruciale. Si les assistants AI peuvent contourner les restrictions de robots.txt, cela pourrait signifier une perte de contrôle pour les marques, créateurs et éditeurs sur l’utilisation de leurs contenus. Cette évolution remet en question l’accord traditionnel entre les moteurs de recherche et les sites web.
Vers une normalisation des comportements des bots
Cloudflare a déclaré qu’il bloquait déjà le comportement contesté et s’attend à ce que les tactiques de Perplexity évoluent en réponse. L’entreprise appelle à une standardisation des comportements des bots via l’IETF (Internet Engineering Task Force) et d’autres efforts politiques.
Nos recos Optis Oignons
Il est impératif que les entreprises surveillent l’évolution des normes de crawling et s’adaptent aux nouveaux défis posés par les technologies d’IA. Une vigilance accrue sur la gestion des contenus et une stratégie active de protection des données sont nécessaires pour continuer à contrôler l’utilisation de leurs informations.
Source
Search Engine Land : https://searchengineland.com/cloudflare-vs-perplexity-ai-crawling-460016

