On a souvent affaire, notamment quand nous nous rendons sur des comparateurs de prix, à cette technique qui reste pourtant méconnue de la plupart des Français. Elle consiste simplement à extraire du contenu et des données de site web via un logiciel. Si sa légalité peut parfois être remise en cause dans certains domaines, on est loin d’une interdiction générale et on comprend facilement pourquoi.
Une définition relativement simple
L’exemple le plus connu du web scrapping reste les comparateurs de prix qui centralisent automatiquement les prix en se rendant sur différents sites internet. Sans cette technique, vous devriez vous rendre sur chaque site internet pour pouvoir comparer les prix. Elle est également utilisée notamment par les moteurs de recherche pour indexer les sites web. Ceux-ci sont crawlés régulièrement afin de recueillir les données nécessaires à leur indexation.
Si vous n’avez pas forcément envie de créer un comparateur ou un moteur de recherche, le Web Scraping n’est pas inutile. Tous les sites web étant différents, on comprend que la mise en place en place d’un tel outil n’est pas si simple et qu’il faut parfois faire appel à des web scraper ide si vous souhaitez la mettre en place. Il ne faut pas se le cacher, cette technique reste particulièrement utilisée par les commerces électroniques. A noter qu’on différencie souvent aussi de « data scraping » ou encore de « content scraping » pour le désigner. Mais concrètement à quoi cela sert ?
L’utilité du Web Scraping
En tant qu’entreprise, elle peut d’abord vous servir à surveiller votre marque. Bien qu’il existe des outils comme Google Alert pour tout ce qui touche à votre réputation, vous pouvez également décider d’utiliser le web scraping pour vérifier que les prix pratiqués par vos revendeurs, par exemple, correspondent à votre politique. Cela peut également être utile pour s’assurer tout simplement que vos prix correspondent à la demande des clients ou encore ceux que pratique votre concurrence. Cette technique peut donc simplement servir à faire de la veille concurrentielle, ce qui serait fastidieux si vous deviez vous rendre chaque jour sur leur site. De la même manière, cette technique peut vous permettre de mettre à jour votre étude de marché. En la matière, de nombreuses données sont largement disponibles sur internet et peuvent faire l’objet d’une actualisation qui ne se doit pas forcément d’être manuelle. On pensera globalement à toutes les données disponibles publiquement, ce qui peut d’ailleurs avoir un impact sur votre marketing.
L’automatisation de certaines tâches est également possible via cette méthode notamment si vous vous rendez sur les mêmes sites régulièrement pour mettre à jour certaines données. Elle peut également vous servir à déterminer des cycles d’achats puisqu’à certains moments de l’année, certains prix peuvent fluctuer et vous pouvez ainsi savoir les meilleures périodes en vous référant à ce qui a été pratiqué l’année précédente. Vous servir de cette technique peut donc vous aider à déterminer le moment opportun pour faire vos stocks. La dernière utilisation la plus courante est relative aux contenus même si certains sites web et blogs vous fournissent déjà des flux RSS. De manière plus dangereuse, elle peut être utilisée pour la génération de listes de prospects, même si dans ce cas, il vous faudra particulièrement bien contrôler ce que vous avez le droit de faire ou non et ne pas faire n’importe quoi.
Une légalité à contrôler
Ce n’est pas parce qu’un contenu est disponible sur le web qu’il est libre et que vous pouvez l’utiliser ou encore le stocker contrairement aux idées reçues. D’abord il faut comprendre que l’extraction web peut être quasiment considérée comme du vol dans certains cas. Bien entendu, vous pouvez récupérer des prix qui sont mis à la disponibilité du public comme le font par exemple les moteurs de recherche.
Cependant, ce n’est pas le cas pour toutes les données web ! Certaines notamment celles relatives aux données personnelles et la propriété intellectuelle sont particulièrement sensibles et vous ne pouvez pas vous amuser à essayer de toutes les réunir comme bon vous semble. C’est le cas par exemple lorsqu’un éditeur ne souhaite pas partager son contenu. On imagine bien le cas où une erreur de manipulation entraînerait la publication de données personnelles d’utilisateurs. La base reste de se conformer à ce que vous indiquent les lois et notamment le règlement général sur la protection des données (RGPD) ainsi que la loi californienne sur la protection de la vie privée des consommateurs (CCPA), pour les plus connus.
L’autre raison qui peut pousser les hébergeurs à ne pas apprécier cette technique, réside dans le fait qu’il peut y avoir de l’« over-scraping ». Autrement dit, certains extracteurs envoient des requêtes trop nombreuses sur une courte période, ce qui peut solliciter trop les serveurs pour des robots plutôt que pour des personnes réelles.