Dipende.
Da una parte, si dovrebbe presupporre che ogni richiesta HTTP lasci una voce nei log del server. Ciò significa, tuttavia, che è altamente dipendente dal contesto. Per un sito Web di piccole dimensioni con solo poche pagine, uno specchio completo può essere indistinguibile da un clic umano su un numero limitato di collegamenti. Tuttavia, un sito Web contenente milioni di pagine richiede necessariamente il mirroring di milioni di richieste HTTP.
I sistemi di analisi del weblog di solito includono meccanismi per tracciare la densità delle richieste geograficamente, e il macchinario statistico che lo fa può rilevare banalmente picchi di molte richieste provenienti da un singolo indirizzo IP o rete in un tempo relativamente breve.
Il proprietario del sito Web può o non può obiettare, a seconda del contesto. Molte aziende sono generalmente felici quando GoogleBot legge i loro siti Web, ad esempio. Possono essere molto meno felici quando notano che un concorrente sta facendo la stessa cosa. Possono anche essere infelici quando notano che il traffico o la potenza di calcolo necessaria per generare le risposte costa loro più denaro di quanto si pensasse di spendere per il servizio.
A seconda del tipo di dati offerti dal server, è possibile acquisire alcune responsabilità legali entrando in possesso di esso. Ad esempio, nell'UE, la direttiva sulla protezione dei dati (e le leggi nazionali che la attuano) disciplinano la gestione dei dati personali.
In generale, se vuoi rispecchiare o raschiare un sito web in modo educato, dovresti iniziare richiedendo /robots.txt
, analizzandolo e seguendo le istruzioni in esso contenute. In genere dovresti anche distribuire le richieste al server in modo da non soffocare il tuo traffico. Oggigiorno, alcuni secondi di ritardo tra il completamento di una richiesta e l'avvio di una nuova sono generalmente considerati sufficienti. Il ritardo previsto era più lungo nei primi giorni di Internet, quando le larghezze di banda erano più basse, la potenza di elaborazione era più costosa e i server Web risucchiavano peggio nel bilanciare il carico.
I siti Web possono contenere anche note legali o "termini di utilizzo", che potrebbero interessarti o meno. In alcune giurisdizioni possono essere esecutivi da tribunali civili. In alcune giurisdizioni, il procedimento penale può essere un rischio se non le obbedisci. In alcune giurisdizioni, i tribunali potrebbero non interessarsene affatto. Chiedi al tuo avvocato. Ovviamente, un robot ad ampio spettro al giorno d'oggi non dovrebbe in genere essere in grado di comprendere legalese, solo robots.txt
, ma se si sta raschiando un determinato sito Web, dare un'occhiata ai termini potrebbe essere un buon punto di preparazione.
A volte, i termini di utilizzo possono includere richieste ragionevoli da parte degli umani dietro il sito web; se è così, di solito dovresti rispettare i loro desideri.