A rischio di affermare tautologie ovvie, qualcosa è illegale solo se esiste una legge contro di essa. Quando qualcuno mette su un sito web, è considerato aperto al pubblico per impostazione predefinita. Se ci sono contenuti che dovrebbero essere disponibili solo per determinate persone, spetta al web designer proteggerli in qualche modo.
Quando il contenuto è protetto e qualcuno senza autorizzazione lo accede tramite l'hacking, questo è generalmente considerato moralmente equivalente a trovare la porta della casa di qualcuno chiusa a chiave e quindi irruzione, e ci sono leggi che vietano di farlo nella maggior parte delle giurisdizioni.
L'intento del proprietario del sito web è molto importante. Una buona parte del contenuto di "deep web" è contenuto che i proprietari di siti desiderano rendere disponibili, ma non è facilmente accessibile ai normali web crawler. D'altra parte, se un proprietario inserisce una regola in robots.txt
per escludere determinati contenuti da un crawler, e il crawler lo indicizza comunque, questo è considerato più o meno equivalente al vagare sulla proprietà di qualcuno quando c'è un segno NO TRESPASSING in chiaro vista. Ma la maggior parte dei siti web accolgono il traffico dei motori di ricerca, perché indirizza gli utenti effettivi al sito, il che aiuta a raggiungere lo scopo del sito, qualunque sia lo scopo. (Solitamente fare soldi, diffondere informazioni, o entrambi.)
Per quanto riguarda l'uso eccessivo di strumenti di test automatici, questo è qualcosa di molto diverso da un web crawler. Un crawler ha algoritmi per colpire solo una determinata pagina una volta, e il suo scopo principale è quello di indicizzare i siti in modo da indirizzare traffico verso di loro, che la maggior parte dei webmaster ritiene valga il costo in termini di larghezza di banda e potenza del processore. Ma colpire ripetutamente la stessa pagina con uno strumento che non introdurrà nuovi utenti non fa nulla per favorire gli scopi del sito, e quindi i costi che pone sul proprietario del sito sono essenzialmente sprecati. A meno che il proprietario del sito non lo abbia effettivamente richiesto (ad esempio, come parte di un test delle funzionalità del suo sito), è generalmente considerato sgradito e dannoso.