Il sito Perishable Press ha reso noto qualche settimana fa di aver adottato una contromisura molto interessante per i bot indesiderati, ovvero per quegli script automatici che stressano non poco un sito alla ricerca di dati, per esempio indirizzi email da spammare oppure immagini da scaricare in massa.
La contromisura consiste in una directory da caricare sul sito e denominata metaforicamente “blackhole”, buco nero. Bisogna modificare le proprie pagine PHP aggiungendo un link verso la directory blackhole, nascosto tramite CSS ai visitatori normali. Tale link farà da esca per i bot, e quando vorranno visitare quella directory, il loro IP verrà messo in una lista nera (one-strike rule). A questo punto, quando il bot richiederà una pagina PHP, se abbiamo incluso lo script che fa il controllo sulla lista nera, l’accesso sarà impedito.
Tuttavia c’è un’altra categoria di bot che invece ci interessano molto, e sono quelli dei motori di ricerca. Alcuni di questi bot (come quello di Google) obbediscono alle istruzioni del file robots.txt, che andrà modificato quindi in questa maniera.
User-agent: * Disallow: /*/blackhole/*
Purtroppo Slurp di Yahoo invece si disinteressa delle suddette regole, ma lo script blackhole tramite una richiesta DNS inversa riconosce le scansioni dei principali motori di ricerca.
Tutti i dettagli e il link per scaricare sono sull’articolo originale, Protect Your Site with a Blackhole for Bad Bots.
Si impara sempre qualcosa di succulento e utile. 😀
Grazie mille. 😉