Non lo vedo come una domanda "legale". È più una questione "morale", è accetabile, dal punto di vista della sicurezza, "gattonare" un sito web che annunci non è vietato ai bot, o sarebbe considerato "hacking" dalla merce? (questo indipendentemente dalla legge consente di eseguire la scansione dei siti Web senza autorizzazione o meno)
Direi - dipende.
I crawler possono entrare per uno scopo "buono" o "cattivo". I "bravi" crawler possono quindi essere considerati "buoni comportamenti" o "cattivi comportamenti".
Questo ci dà 3 tipi di crawler:
I "cattivi" crawler, quelli sono sempre considerati "cattivi comportamenti".
"Buoni" crawler, che sono "cattivi comportamenti".
"Buoni" crawler, che sono "bravi comportamenti".
Se il crawler in generale è "buono" o "cattivo", dipende dallo scopo del crawler.
Ad esempio il tuo intento. Se il crawler ha l'intento di "sanguinare", "parassitare" o raccogliere dati dal sito Web per lo scopo o di riepilogo dei dati di più siti Web sul tuo sito Web, o anche peggiori, raccogliere indirizzi email o URL da un sito Web per altri usi, I direi che è un "cattivo" crawler. Quindi robots.txt non ha importanza.
Lo stesso se si esegue la scansione di buchi di sicurezza (per il proprio piacere) o se si esegue la scansione per fini di visualizzazione offline. Quindi devi sempre chiedere l'autorizzazione prima di eseguire la scansione.
Se invece fai una cosa buona, normalmente un servizio al pubblico. Diciamo che fai un motore di ricerca speciale per determinati tipi di file, un motore di ricerca che consente a un utente di effettuare una ricerca locale su un solo sito web in tempo reale (simile al sito: in google) o se si effettua un servizio mirato ai webmaster, quindi direi che è un "buon" crawler.
Diciamo che fai un servizio online per testare la sicurezza di un sito web, o fai un crawler "link checker" che controlla i link morti su tutte le pagine.
Nel primo caso (motore di ricerca speciale), direi che il seguente protocollo robots.txt è una buona cosa.
Nel secondo caso, direi che seguire robots.txt è una cosa buona con una piccola eccezione: quindi dovresti ignorare qualsiasi user-agent: * linee, e l'esplicita richiede al webmaster di dare il permesso al tuo bot, come
user-agent: LinkChecker
disallow:
robots.txt è un modo eccellente per garantire che un webmaster fornisca la tua autorizzazione prima di eseguire qualsiasi scansione che dovrebbe essere limitata ai soli webmaster.