Devo bloccare Yandex Bot?

30

Ho un'applicazione web che lo spider Yandex sta tentando di accedere al back-end alcune volte. Dopo questa ricerca spider, ci sono pochi indirizzi IP russi che tentano di accedere al back-end e non riescono ad accedere.

Devo bloccare Yandex o fare un'altra azione?

Aggiornamento:

Lo spider Yandex visita un URL di back-end circa una volta ogni 2-3 giorni. Non abbiamo rilasciato alcun URL di back-end sul front-end.

I significati " back-end ": l'interfaccia dell'applicazione web che consente al nostro amministratore di gestire l'applicazione

    
posta user2352577L 09.05.2016 - 08:08
fonte

4 risposte

73

Should i block Yandex

Perché?
Innanzitutto, se il bot è un bot del motore di ricerca legittimo (e nient'altro), non ti hackeranno. In caso contrario, il blocco di un agente utente non aiuterà, ne useranno solo un altro.
Se la tua password è buona, fail2ban è configurato, il software è aggiornato ecc., Fai in modo che provino. In caso contrario, è necessario correggerlo, indipendentemente da eventuali robot Yandex.

Per assicurarti che il problema sia effettivamente Yandex, prova a non autorizzarlo in robots.txt e controlla se si ferma.
No = > non Yandex.

(Ha impostato un nuovo server web alcune settimane fa. Un'ora dopo essere entrato online non aveva ancora un dominio, un "Googlebot" ha iniziato a provare le iniezioni SQL per un Wordpress inesistente. È stato divertente da guardare, come non c'erano altre richieste HTTP, ma non ho bloccato Google a causa di ciò.)

    
risposta data 09.05.2016 - 08:26
fonte
9

Accetto con la risposta di @deviantfan e in particolare con questo punto

First, if the bot is a legitimate search engine bot (and nothing else), they won't hack you. If not, blocking a User agent won't help, they'll just use another one.

Vorrei sottolineare che come Yandex e altri motori di ricerca in generale potrebbero non voler accedere intenzionalmente al tuo back-end. Ricorda che i bot stanno eseguendo la scansione dei siti seguendo i link, quindi immagina se i cattivi inserissero alcuni degli URL dei tuoi backend in alcune pagine di altri siti web e il motore di ricerca indicizzi semplicemente tali pagine e ora stia cercando di seguire i link da lì. Quindi, sembrerà che il motore di ricerca stia cercando di accedere al tuo back-end, ma si limita a gattonare la rete: non sa che è il tuo back-end.

Una cosa simile potrebbe accadere per caso. Diciamo che un utente esperto di tecnologia non ha pubblicato un url in qualche forum, che è accessibile solo quando si è effettuato l'accesso: eseguendo la scansione il motore di ricerca proverà a seguire tali collegamenti e finirai per vedere i log come presumo che tu abbia fatto.

UPDATE: penso che potresti voler impostare la regola robots.txt per impedire a yandex di accedere a URL specifici. A proposito, è meglio definire una regola specifica con il suo nome, non sono sicuro, ma potrebbe succedere che yandexbot possa ignorare User-agent: * , quindi puoi fare smth in questo modo (secondo i tuoi URL di back-end)

User-agent: Yandex
Disallow: /admin/*

Quindi, in questo modo, non lo consentirai di accedere agli URL di back-end, facendo corrispondere tale modello, ma allo stesso tempo (yandexbot) sarà libero di eseguire la scansione di altre pagine del tuo sito web.

    
risposta data 09.05.2016 - 22:31
fonte
3

Non dovresti bloccare il bot Yandex legittimo, ma potresti verificare che sia in realtà il bot legittimo, e non qualcuno che sta usando l'agente utente Yandex.

Da: link

  • Determina l'indirizzo IP dello user-agent in questione usando i log del tuo server. Tutti i robot Yandex sono rappresentati da un agente utente set.
  • Utilizzare una ricerca DNS inversa dell'indirizzo IP ricevuto per determinare il nome del dominio host.
  • Dopo aver determinato il nome host, puoi verificare se appartiene o meno a Yandex. Tutti i robot Yandex hanno nomi che terminano in "yandex.ru", "yandex.net" o "yandex.com". Se il nome host ha un finale diverso, il robot non appartiene a Yandex.
  • Infine, assicurati che il nome sia corretto. Utilizzare una ricerca DNS diretta per ottenere l'indirizzo IP corrispondente al nome host. Dovrebbe corrispondere all'indirizzo IP utilizzato nella ricerca DNS inversa. Se gli indirizzi IP non corrispondono, significa che il nome host è falso.

In effetti, quasi tutti i motori di ricerca di grandi dimensioni offrono metodi simili per verificare l'agente utente. Il modo in cui funziona è perché qualcuno può falsificare la ricerca DNS inversa, ma non il DNS in avanti di tale indirizzo falso.

    
risposta data 10.05.2016 - 14:46
fonte
1

Anche se sono d'accordo con la risposta di @deviantfan vorrei aggiungere che - dal momento che la tua domanda iniziale suona come la via per l'inferno ho visto qualcuno scendere qualche anno fa - anche se provi a bloccare un ragno completamente opposto per dirti semplicemente di andare via tramite robots.txt (che probabilmente dovresti fare per le parti dell'amministratore comunque), finirai in un gioco senza fine di whackamole che non puoi vincere.

Qualche anno fa qualcuno su un altro sito che leggevo parlava di come Google / Microsoft / Yandex / etc fossero tutti "DDOSing" sul suo sito web. Apparentemente il sito era "privato, e solo alcuni dei suoi amici dovrebbero avere accesso, e non dovrebbe apparire in nessun motore di ricerca". Tuttavia, apparentemente almeno uno dei suoi utenti stava postando collegamenti a posizioni interne che i vari web spider stavano trovando. (Al contrario di loro solo conoscendo www.whatever.tld dai record DNS.)

La persona che lo gestiva ha deciso di avere un file robots.txt in modo che gli spider che hanno trovato dei collegamenti non facessero altro che leggere il file e andare via. Dovevano ignorare il suo sito per sempre e non toccarlo mai più in nessuna circostanza. (Non ha mai fornito una spiegazione ragionevole del motivo per cui questa era l'unica opzione accettabile, poiché apparentemente stava facendo qualcosa su chi stava postando link a posizioni interne sul suo sito che gli spider stavano trovando, o richiedevano solo l'autenticazione in modo che i bot venissero semplicemente scaricati una pagina di accesso gratuita ai contenuti.)

Invece ha appena iniziato a mettere in black list tutti gli IP dello spider web in modo che ogni richiesta di tentativi siano scaduti senza una risposta. Una volta fatto ciò, scoprì che, invece di seguire un singolo collegamento per ottenere il file robots.txt e andare via per un certo periodo di tempo, gli spider avevano intervalli di tentativi molto più brevi quando si eccitavano e cominciavano a colpire il suo sito da numerosi IP diversi (presumibilmente i ragni cercavano di aggirare ciò che presumevano fosse un errore di rete).

Questo è stato il punto in cui la sua lista nera di IP è esplosa a migliaia di indirizzi e ha iniziato a sbraitare per essere stato DDOSed dai motori di ricerca. Purtroppo a quel punto la persona era diventata pazza e ha rifiutato qualsiasi tentativo di affrontare il suo vero problema invece di quello che era convinto fosse la soluzione corretta.

    
risposta data 10.05.2016 - 15:27
fonte

Leggi altre domande sui tag