Come rilevare Selenium / webdriver navigando sul mio sito [chiuso]

0

Ho un sito Web e noto un sacco di traffico di robot, suppongo che cerco di estrarre i dati dal sito. Sono riuscito a rilevare alcuni traffici con script o limiti di velocità IP, ma vedo che non riesco a rilevare l'accesso che utilizza Selenium / webdriver.

Qualcuno sa come possono essere rilevati?

Ho visto questo post: link e iniziando a controllare questo, ma dai miei test non tutti sono possibili.

P.S. Parti specifiche (clic, collegamenti, ecc.) Del nostro sito fanno sì che il nostro backend lavori duramente e accedervi per la demolizione interrompa il lavoro dei nostri clienti regolari, quindi ho bisogno di bloccare l'accesso a quelle pagine ma soluzioni come re-captcha sembrano troppo dure (almeno per il nostro i saldi). Quindi per favore non chiedetemi di lasciar perdere.

Modifica

La mia unica domanda è : qualcuno sa e vuole condividere come rilevare i browser controllati selenio / webdriver nel mio sito web?

Non mi importa davvero degli altri run-round, non sono sotto la mia responsabilità.

    
posta Eyal H 10.10.2017 - 07:55
fonte

3 risposte

2

Potresti non volerlo sentire, ma stai facendo la domanda sbagliata.

Specific parts (clicks, links etc) of our site make our backend work hard and accessing them for scrapping disrupt our regular clients work

Inavvertitamente DoSed. Se qualcosa di così banale come il raschiamento del sito web pubblico è sufficiente per incidere sulla produzione / entrate, la tua architettura è difettosa. Inseguendo i bot e cercando di identificare tutti loro non è la risposta, ci saranno sempre nuovi robot e nuovi metodi di raschiamento.

Sono costantemente stupito dal numero di domande che riguardano lo scraping web che sembrano essere assegnazioni scolastiche che appaiono su SO. Non hai fine di avversari promettenti.

Inoltre, un concorrente senza scrupoli potrebbe semplicemente sopprimere il traffico del tutto eseguendo uno sciame di robot proprio contro di te. Ho dovuto lavorare per luoghi che mi chiedevano di fare simili, quindi esistono sicuramente.

È necessario prendere provvedimenti per raggiungere i risultati di queste richieste senza che nessun numero di visitatori arbitrari possa dare il via a queste attività ad alta intensità di risorse. La memorizzazione nella cache sarà la tua risposta o limiterà queste particolari operazioni agli utenti autenticati.

    
risposta data 10.10.2017 - 19:36
fonte
0

La maggior parte dei bot / scrapers / legittimi aggressori non useranno il selenio. Faranno solo le richieste web (anche non interattive). Di conseguenza, user-agent e qualsiasi altro filtro basato su intestazione / dati non funzionerà. Dovresti fare un'analisi basata sul comportamento per fermare il traffico. Puoi iniziare un massiccio studio di ricerca sul comportamento degli utenti naturali nel tentativo di bloccare il cattivo traffico, ma questa è davvero una soluzione costosa per un problema facilmente risolto (correggi il back-end!)

Fino a quando non risolvi questo problema (per Ivan) puoi utilizzare un clic reCAPTCHA . Si tratta di una misura temporanea per evitare che il tuo sito si rompa finché non risolvi il problema di prestazioni. Ricorda che questo è essenzialmente punire i tuoi utenti (costringendoli a riempire un captcha in alcuni casi) ed è un UX terribile.

    
risposta data 11.10.2017 - 04:07
fonte
-1

Vorrei anche monitorare il traffico IP in entrata sul nostro server web.

Potresti anche applicare le regole di blocco del boot al tuo file .htaccess, una volta fatto vedrai molte richieste respinte nei tuoi log.

    
risposta data 10.10.2017 - 09:51
fonte

Leggi altre domande sui tag