Spider Attack da diversi motori di ricerca contemporaneamente

3

Salve che il mio server venga colpito da spider provenienti da bingbot, google, yahoo, yandex e da qualche altro posto nel Regno Unito, tutti allo stesso tempo bloccati.

Anche se non ho motivo di pensare che qualcuno abbia fatto questo, mi sembra strano che sia accaduto tutto nello stesso momento.

Dovrei essere preoccupato?

Le uniche modifiche prima che iniziasse era che ho cambiato tutte le password del server.

    
posta Rick 28.06.2012 - 22:26
fonte

4 risposte

9

Bing, Google e Yahoo di solito non invadono il server di richieste, ma inviano molto meno di una richiesta al secondo.

Verifica due volte di aver ricevuto molte richieste da loro in un lasso di tempo molto breve (ad esempio entro un secondo).

Se la tua applicazione web ha problemi con la gestione di richieste occasionali (ad esempio su richiesta al secondo), puoi rallentare Bing e Yahoo con la seguente voce in robots.txt:

Crawl-delay: 120

Questo richiederà ai crawler di attendere almeno 120 secondi tra le richieste. Per Google, puoi definire il ritardo negli strumenti per i webmaster .

    
risposta data 28.06.2012 - 23:22
fonte
3

Tutta questa discussione probabilmente appartiene a Pro Webmasters, comunque; come indicato in uno dei commenti è applicabile anche qui.

Avere diversi motori di ricerca colpisci il tuo sito contemporaneamente è un comportamento assolutamente normale. Se sei riuscito a ottenere collegamenti al tuo sito da altri siti affidabili, verrai indicizzato. I più brutali sono Yahoo, Yandex e Baidu. La prima volta che il nostro sito Web si è impantanato, sono entrato in modalità DDOS e mi sono sentito in gran parte imbarazzato trovando che ogni IP proveniva da fonti riconosciute di Microsoft, Yahoo e Google (verificate dalla proprietà del blocco IP, non da UA Strings). La risposta è stata quella di rafforzare le risorse del sito Web per gestire il carico.

Nonostante ciò che si ipotizza sul numero di utenti simultanei, il tuo server web deve essere in grado di gestire Google, Bing e Yahoo indicizzando contemporaneamente il tuo sito e il traffico previsto. Se il tuo sito non può prendere il carico dall'indicizzazione, dovrai escludere o limitare i motori di ricerca. Sebbene vi sia questa patetica voce robots.txt che è quasi supportata, otterrai risultati migliori iscrivendoti a Google, Bing, strumenti per webmaster Yandex e utilizzerai le loro pagine di limitazione per modellare il loro traffico di indicizzazione per adattarsi al meglio al programma del tuo sito web.

Verifica da dove proviene il traffico analizzando i log di accesso del tuo server web. Cerca gli IP (http://www.botsvsbrowsers.com/ è uno di questi strumenti per aiutare a identificare le fonti di traffico dei bot). Yandex e Baidu sono rispettivamente in Europa orientale e in Cina. Se non sono nella tua sede, vietali per salvare la larghezza di banda.

EDIT: Dopo aver esaminato i log di accesso, fai attenzione agli improvvisi aumenti del traffico da una stringa UA del motore di ricerca nota con stringhe di query dispari. Le stringhe di User Agent non sono la prova che il traffico proviene da chi dicono di provenire mentre la persona che invia il traffico può generarle a volontà e cercare di nascondersi dietro l'identità di UA.

    
risposta data 29.06.2012 - 04:39
fonte
1

Si sta eseguendo una scansione a causa di qualche collegamento da qualche parte. Avresti bisogno di rallentare i bot o riparare i siti web in modo che siano più veloci. Non sei sicuro di come limitare i bot, potresti voler controllare con la pagina webmaster di Google o questo:

link

    
risposta data 28.06.2012 - 23:10
fonte
0

Non sono d'accordo sul fatto che questo è sempre un comportamento normale. Sono sotto un simile attacco DDOS dai motori di ricerca. Abbiamo ampie risorse e numerosi server ridondanti che gestiscono il nostro sito. Tutto con failover DNS. E BOOM siamo stati colpiti e buttati giù dal web. Per prima cosa ho visto rapporti di failover andare su e giù come un matto.

Pensavamo di aver ricevuto una brutta pagina di query AJAX o non memorizzata nella cache. Mentre guardavo più a fondo nei log e vedevo ogni bot, fingevo bot e wanta be bot sia riconosciuto che sconosciuto, sapevo che era un attacco iniziato. Perché? Il nostro robot.txt consente solo googlebot, tutti gli altri sono esclusi dalla nostra flotta di server.

Quindi il robot.txt veniva ignorato e noi venivamo abbattuti. Quindi se ignori il mio robot.txt, il mio firewall non ti ignorerà. Abbiamo firewallato (e lo sono ancora) oltre 60 spider finora. (tutti colpiscono allo stesso tempo, ignorando sia il ritardo 360 sia il rifiuto nel nostro .txt). Quindi non penserei sempre che questo sia più normale.

    
risposta data 27.07.2012 - 16:33
fonte

Leggi altre domande sui tag