Sto cercando di implementare la sicurezza contro gli scraping sul mio sito web per evitare tecniche di scraping di base.
Google sembra avere una protezione molto buona contro lo scraping, ma è così bello che non riesco a capire il suo meccanismo.
Stavo cercando di fare una richiesta http GET come "utente normale" utilizzando le normali intestazioni del browser e i parametri di query.
Funzionava tutto bene prima di un certo numero di richieste, poi veniva visualizzata la pagina 503 di errore che mi informava che era stato rilevato traffico insolito, conteneva anche il mio indirizzo ip esterno.
La cosa strana è che dal mio normale browser Chrome non c'erano assolutamente errori quando facevo richiesta a quel determinato URL, ma con le mie richieste http personalizzate continuavano a visualizzare lo stato 503.
Ero quasi certo che il server proxy potesse ignorare tale protezione, ma mi sbagliavo: anche se il sito web mostrava un indirizzo IP diverso, continuavo a ricevere errore 503 dello stato.
Richiedi informazioni
Main
----
Method: GET
URL: https://www.google.com/search
Data (Query parameers)
----------------------
q: "this+is+example"
ie: utf-8
oe: utf-8
start: 0
Headers
-------
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36'
Le informazioni inviate dal mio browser sono state generate da Chrome: ho effettuato l'accesso, pertanto i cookie di sessione sono stati inviati anche nelle intestazioni.
Se non si limitano la limitazione della velocità IP e la limitazione della frequenza dei cookie, come potrebbe Google identificare questo bot di scraping? C'è qualche altro metodo che possa offrire tale protezione?