Quand tu te dis qu'il y a un loup

Comme chaque début de mois tu te connectes à ton interface de statistiques, et voilà que tu constates une explosion de traffic sur un site web : plus de 300% de croissance !
En bon éditeur de site web, tu sais très bien que tu n'as réalisé aucune opération spéciale, pas de campagne de netlinking sauvage, pas de passage à la télé sur M6 Capital, pas d'achat de lien : rien.
Et pourtant les statistiques de fréquentation du site sont formelles : il y a une sacrée augmentation !
Hélas, quand tu regardes d'un peu plus près ces statistiques de consultation (les fameux fichiers logs), tu réalises que les pages les plus demandées sont  (par ordre décroissant) :
  • /wp-admin/admin-ajax.php
  • /wp-content/plugins/dzs-portfolio/upload.php
  • /wp-content/plugins/dzs-videogallery/upload.php
  • /wp-content/plugins/dzs-portfolio/admin/upload.php
  • /wp-content/plugins/cardoza-facebook-like-box/cardoza_facebook_like_box.php
  • /wp-content/plugins/wp-handy-lightbox/begin.php
  • /wp-content/plugins/mm-forms-community/includes/doajaxfileupload.php
  • /wp-admin/post.php?task=wpdm_upload_files
  • /wp-admin/admin-post.php?page=wysija_campaigns&action=themes
  • /wp-admin/admin-post.php?page=wysija_campaigns&action=themes
  • /wp-content/plugins/uploader/uploadify/uploadify.php
  • /wp-content/plugins/gallery-plugin/upload/php.php
  • /wp-content/plugins/cherry-plugin/admin/import-export/upload.php
  • /wp-content/plugins/dzs-videogallery/admin/upload.php
  • /modules/advancedslider/ajax_advancedsliderUpload.php?action=submitUploadImage&id_slide=php
Donc la mauvaise nouvelle, c'est que les requêtes concernent non pas des contenus, mais des répertoires censés donner accès à des fonctionnalités : plugins ou scripts côté serveur.
Comme on peut le constater, ce sont majoritairement des répertoires respectant l'arborescence du CMS WordPress, et des plugins comportant, ô surprises, des failles de sécurité.

Et là vous allez me dire : comment Ordibug peut-il avancer un tel propos ?

Premièrement : 
Les logs du site dont il est question ici : ce n'est pas un site WordPress
Oui, vous avez bien lu : il y a des centaines de requêtes qui sont faites pour des plugins, fonctionnalités ou répertoires qui n'existent pas et n'existeront jamais pour ce site.
C'est ce qu'on appelle un scan, réalisé par des logiciels et/ou scripts automatisés qui parcourent le web à la recherche de ces fichiers, dans le but d'identifier des vulnérabilités (failles de sécurité) potentielles.
Dans quel but ? Les exploiter, bien évidemment. Par exemple, pour incorporer des liens vers d'autres sites (lire notre billet sur le sujet : site piraté)
Deuxièmement : quand on regarde d'où sont émises ces requêtes :

Domaines

  • numeric ip1883 36.4%
  • com 1488 28.7%
  • net 49 69.6%
  • ru 49 49.5%
Cela donne une idée, pour un site français.

Comment se prémunir de ce bruit de fond qui parasite les statistiques de fréquentation ?

Selon le type d’hébergement web (mutualisé ou dédié), il est possible d'utiliser et paramétrer la configuration du serveur web utilisé (Apache, Nginx, Microsoft...), le fichier htaccess, le fichier robots.txt...
Pour le fichier robots.txt, rappelez-vous qu'il n'est lu qu'à titre indicatif (quand bien même il est lu) : les scripts / spiders /  robots / user-agents peuvent travestir leur identité d'une part, et d'autre part choisir de ne pas respecter les directives de ce fichier.

Quel enseignement retirer de cette pollution due aux robots du web ?

Vous pouvez vous dire une chose : si des requêtes cherchent tel fichier ou tel plugin, c'est probablement parce qu'il y a une faille de sécurité liée. Donc chez Ordibug, on aura tendance à blacklister les plugins ou modules qui sont scannés : ne surtout pas les installer sur son propre site ! (ou alors faire des recherches pour voir s'ils ont été patchés, etc)
Une rapide recherche d'une des requêtes automatisée enregistrée dans les logs nous livre des adresses de sites utilisant ces plugins vulnérables directement accessibles depuis le web :