Crawler che modifica in modo massivo l'utente-agente

6

Questa mattina ho notato che un singolo indirizzo IP era un po 'come strisciare il mio sito web, sebbene stesse interrogando la stessa pagina molte volte in pochi minuti. Poi ho notato che lo stava facendo con diversi user-agent.

Ho deciso di verificare cosa stava accadendo analizzando i log di httpd di Apache

  cut -d' ' -f1 /var/log/apache2/*access.log | # Extract all IP-addresses from the server logs
  sort -u |                                    # List every IP-address only once
  while read ip; do                            # Cycle through the list of IP-addresses
    printf "$ip\t";                            # Print the IP-address 
    grep ^$ip /var/log/apache2/*access.log |   # Select log entries for an IP-address
    sed 's/^.*\("[^"]*"\)$//' |              # Extract the user-agent
    sort -u |                                  # Create a list of user-agents
    wc -l;                                     # Count the unique user-agents 
  done | 
  tee >( cat >&2; echo '=== SORTED ===' ) |    # Suspense is killing me, I want to see the progress while the script runs...
  sort -nk2 |                                  # Sort list by number of different user agents
  cat -n                                       # Add line numbers

Quale risulta in una lunga lista:

  line  IP-address      number of different user-agents used.
...
  1285  176.213.0.34    15
  1286  176.213.0.59    15
  1287  5.158.236.154   15
  1288  5.158.238.157   15
  1289  5.166.204.48    15
  1290  5.166.212.42    15
  1291  176.213.28.54   16
  1292  5.166.212.10    16
  1293  176.213.28.32   17
  1294  5.164.236.40    17
  1295  5.158.238.6     18
  1296  5.158.239.1     18
  1297  5.166.208.39    18
  1298  176.213.20.0    19
  1299  5.164.220.43    19
  1300  5.166.208.35    19

Quindi ci sono decine di indirizzi IP che stanno giocando con l'agente utente nell'arco di un paio di minuti. Ho controllato i primi 50 indirizzi IP contro il mio piccolo registro privato di robot noti , ma non ci sono partite lì.

Ecco come appare il log di accesso per un singolo indirizzo IP (troncato verticalmente e orizzontalmente per maggiore leggibilità):

"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 5.1; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.99 Safari/537.36" 
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.99 Safari/537.36"

Le altre persone stanno vedendo questo? Qualcuno ha idea di cosa sta succedendo qui?

    
posta jippie 25.12.2015 - 10:59
fonte

3 risposte

2

Come dice schroeder, sembra una scansione automatica. Gli strumenti di scansione hanno una pila di user-agent e li analizzano tutti. Dai un'occhiata agli strumenti di pentesting web automatizzati come Uniscan, Arachni, Golismero, ecc ... Potresti provare a eseguire uno di questi sul tuo sito per vedere se ottieni gli stessi risultati.

    
risposta data 27.12.2015 - 03:55
fonte
2

Questo è solo un semplice spidering, test di penetrazione, randomizzazione del browser o un mix di alcuni di questi.

Web Spider

Molti web-spider ti permettono di randomizzare il tuo user-agent mentre sifonano i contenuti di un sito web. Questo è piuttosto banale da implementare, e alcuni dei miei spider web fanno la stessa cosa. Tuttavia, è una cattiva progettazione per randomizzare gli user-agent durante lo spidering.

Randomizzazione del browser

Ci sono plug-in del browser come l'agente segreto che ti permettono di randomizzare i valori delle impronte digitali del tuo browser per evitare il rilevamento.

Visto che stai vedendo solo 19 tentativi, è anche possibile che abbiano visto circa 15-19 pagine ciascuno, ma sembra strano che lo facciano in modo coerente. Potrebbe anche essere una sola persona a cambiare le impostazioni VPN e del browser per ogni caricamento della pagina, il che indicherebbe l'ipotesi di un tinfoil di livello successivo.

Test di penetrazione

Gli strumenti di test di penetrazione automatizzati randomizzano anche i loro agenti utente quando visitano una pagina.

Conclusione

Senza vedere più di quello che sta succedendo, non possiamo davvero dirti cosa sta succedendo oltre a fare qualche ipotesi. Avete dei dati di acquisizione dei pacchetti? Ciò aiuterebbe enormemente.

    
risposta data 27.12.2015 - 04:53
fonte
0

Solo un'ipotesi, ma potrebbe esserci qualche test di servizio se il tuo server sta effettuando download drive-by. Ma direi che qualcuno (che si comporta male?) È la soluzione più possibile.

    
risposta data 27.12.2015 - 19:17
fonte

Leggi altre domande sui tag