Come evitare che un bot venga scoperto? [chiuso]

0

Sto facendo un bot per raschiare dati da un sito Web a fini di studio. Ma non voglio che lo acchiappino e bloccino il mio IP. Fondamentalmente quello che faccio è raschiare poche immagini e poche righe di testo (usando dom e html parsing con regex: - So che è orribile, ma questo è per un semplice set di pagine web) Quello che ho già provato è eseguire il bot in 2- 3 minuti di intervalli di tempo e raschiare pochi dati e spegnere, sarà sufficiente a non farsi prendere? Altrimenti, cosa dovrei fare? La cosa più importante è la tua idea di creare un bot che non verrà catturato.

importante

Questo è solo per scopi di ricerca e di studio, non violando le politiche di sicurezza del sito.

Mi preoccupo solo se vedono il mio traffico bot insolito e bloccano il mio IP.

* credimi il mio bot è innocente *

    
posta lasan 11.12.2016 - 08:14
fonte

1 risposta

3

Puoi indirizzare il tuo traffico attraverso Tor . Se vieni bloccato, puoi semplicemente passare a un nuovo circuito virtuale con un nodo di uscita diverso. È possibile ottenere ciò integrando una libreria client Tor negli script, ad es. libtor . È anche possibile impostare il proxy HTTP del sistema su un proxy SOCKS locale in grado di connettersi a Tor. Alcune buone opzioni sono state trattate su SuperUser.SE . Questo potrebbe fallire se i server sono in grado di rilevare e bloccare le connessioni dalla rete Tor.

Oltre a questo, puoi provare a indirizzare il tuo traffico attraverso un semplice vecchio proxy HTTP o VPN. Anche questo potrebbe fallire se il tuo script ha una particolare impronta digitale dell'utente che può essere identificata e bloccata.

Potresti anche accedere alle pagine tramite cache Internet di Google o Archivio Internet . Potresti essere in grado di utilizzare abilmente le query di Google per fare il tuo scraping per te, eludendo completamente le tue preoccupazioni.

Qualsiasi tentativo di eludere il rilevamento rallenterà la scansione, probabilmente molto. Tor sarà molto lento. Inoltre, questo è probabilmente un uso dannoso di Tor. Tuttavia, questo metodo potrebbe essere etico nel caso di un test di penetrazione legale in cui si tenta di simulare gli aggressori.

In fin dei conti, non stai effettuando un test di penetrazione, quindi non è necessario eludere il rilevamento. Se sei preoccupato di essere bloccato, puoi parlare con i proprietari del sito e chiedere la loro autorizzazione per eseguire la scansione del sito web. Forse a loro non importa, come di solito accade con i siti web pubblicamente disponibili.

    
risposta data 11.12.2016 - 08:29
fonte

Leggi altre domande sui tag