Che cosa succederà se non seguo robots.txt durante la scansione? [duplicare]

26

Sono nuovo sul web crawling e sto testando i miei crawler. Sono stati test su vari siti per i test. Ho dimenticato il file robots.txt durante i miei test.

Voglio solo sapere cosa succederà se non seguo il file robots.txt e qual è il modo sicuro di eseguire la scansione?

    
posta user1858027 20.12.2012 - 08:48
fonte

3 risposte

42

Il Robot Exclusion Standard è puramente di consulenza, dipende completamente da te se lo segui o meno, e se non stai facendo qualcosa di brutto è che non accadrà nulla se scegli di ignorarlo.

Detto questo, quando catturo i crawler non nei confronti di robot.txt nei vari siti Web che supporto, vado fuori dal mio modo di bloccarli, indipendentemente dal fatto che siano problematici o meno. Persino i crawler legittimi possono arrestare un sito con troppe richieste di risorse che non sono progettate per gestire la scansione, pertanto ti consigliamo vivamente di riconsiderare e adattare il crawler per rispettare pienamente il file robots.txt.

    
risposta data 20.12.2012 - 08:55
fonte
14

la maggior parte dei siti non ha ripercussioni

tuttavia ci sono alcuni siti che hanno trappole crawler, collegamenti nascosti per l'utente normale ma chiaramente visibili per i crawler

queste trappole possono bloccare il tuo crawler IP o fare qualsiasi cosa veramente per provare e sventare il crawler

    
risposta data 20.12.2012 - 09:32
fonte
10

Non ci sono ripercussioni legali di cui sono a conoscenza. Se un web master nota che stai eseguendo la scansione di pagine che ti hanno detto di non eseguire la scansione, potrebbe contattarti e dirti di smettere o addirittura di bloccare il tuo indirizzo IP dalla visita, ma si tratta di un evento raro. È possibile che un giorno vengano create nuove leggi che aggiungono sanzioni legali, ma non credo che questo diventerà un fattore molto importante. Finora, la cultura di Internet preferiva il modo tecnico di risolvere le cose con "consenso approssimativo e codice di esecuzione" piuttosto che chiedere ai legislatori di intervenire. Sarebbe anche discutibile se la legge qualsiasi potesse funzionare molto bene la natura internazionale delle connessioni IP.

(In effetti, il mio paese è in procinto di creare una nuova legislazione specificamente indirizzata a Google per ri-pubblicare frammenti di notizie online! I giornali potrebbero facilmente impedire a Google di spiderli via robots.txt , ma non è quello che loro vogliono - vogliono che vogliano essere scansionati, perché questo porta a colpi di pagina e denaro degli annunci, vogliono semplicemente che Goggle paghi loro i diritti d'autore! per non eseguendoli per indicizzazione anziché per eseguirne la scansione.)

    
risposta data 20.12.2012 - 09:00
fonte

Leggi altre domande sui tag