Sto cercando di creare un sistema per la mia azienda che desideri verificare la presenza di modelli insoliti / abusivi di utenti (principalmente web scrapers).
Attualmente la logica che ho implementato analizza i log di accesso http e tiene conto dei seguenti parametri per calcolare il potenziale di un utente come raschietto o bot:
-
Controlla il rapporto di richieste HTTP POST / GET per ogni IP
-
Calcola il rapporto tra URL univoci e numero totale di hit (sparsità) per ogni IP
Sulla base dei due parametri precedenti, proviamo a bloccare qualsiasi IP che mostri un comportamento insolito, ma questi due parametri da soli non sono stati sufficienti per il rilevamento dei bot. Quindi mi piacerebbe sapere:
-
Esistono altri parametri che possono essere inclusi per migliorare il rilevamento?
-
Ho trovato un articolo pubblicato nella libreria ACM che segue l'approccio bayesiano per rilevare un crawler. Qualcuno ha usato questo? Quanto è efficace questo?
-
Stack Overflow e altri siti ad alto traffico hanno implementato questo tipo di sistemi, quale logica seguiranno per tenere lontani in tempo reale spammer / crawler indesiderati?