È possibile sabotare i bot di Google? [chiuso]

Question

È possibile sabotare i bot di Google? [chiuso]

#1 da (2 voti)
#2 da (1 voti)

0

Considera il seguente server web teorico:

On any request, produce an html response that consists of 2 links, which are each randomly chosen strings followed by ".html".

Quando il bot di Google tenta di eseguire la scansione di questo sito, verrà presentato con altri 2 link. Nell'interesse della mappatura del sito, tenterà di navigare verso di loro, ognuno restituendo altri 2 link. Questo ovviamente accadrà all'infinito (sicuramente può venire con una soluzione che non dà mai lo stesso nome di pagina due volte).

La mia domanda è, i robot hanno un meccanismo per rilevarlo? Se è così, che cosa è? In caso contrario, quale tipo di metodi di rilevamento sarebbe possibile per questa situazione?

Non del tutto sicuro se questo fosse il sito SE giusto per pubblicare questo.

webserver web-scanners

posta Cruncher 19.02.2014 - 19:49

fonte

2 risposte

Leggi altre domande sui tag webserver web-scanners

comprensione e superamento del problema di prestazioni SSL MitM Attacks - Iptables?

score 2 · Answer 1

No. Il numero di pagine che Google (e qualsiasi principale bot di ricerca) è disposto a eseguire la scansione sul tuo dominio (o in effetti se sono disposti a eseguirne la scansione a tutti ) si basa sul livello di pertinenza del tuo dominio.

Ci sono molti siti con un numero infinito di pagine. Questo problema è stato risolto decenni fa.

score 1 · Answer 2

Anche senza un'ingegneria speciale, alcune architetture del sito possono avere lunghi percorsi ricorsivi, ad esempio alcuni wiki. Qualsiasi bot decentemente scritto dovrebbe essere in grado di far fronte a tale comportamento del sito, almeno con un limite di profondità di ricorsione. Non credo che nessuno qui sarà in grado di rispondere concretamente, poiché nessuno di noi ha accesso direttamente al software di google, ma immagino che il bot di Google sia abbastanza intelligente da evitare tali trappole; inoltre, ci sarà sicuramente un limite al tempo che un bot avrà assegnato a spendere su ciascun sito che esegue la scansione, anche se si "perde" nella sua navigazione.