È evidente quando si copia una pagina web?

Question

È evidente quando si copia una pagina web?

#1 da (5 voti)
#2 da (1 voti)

1

È evidente quando si utilizza uno strumento per prendere una copia di un sito Web? - quanto è probabile che tu attivi i registri e quant'altro quando usi strumenti come HTTrack?

In realtà è illegale o "cattivo" farlo? - Tutto quello che stai facendo è navigare abbastanza velocemente sul sito web, no?

tools websites

posta Crizly 28.09.2014 - 21:37

fonte

2 risposte

1

Dipende.

Da una parte, si dovrebbe presupporre che ogni richiesta HTTP lasci una voce nei log del server. Ciò significa, tuttavia, che è altamente dipendente dal contesto. Per un sito Web di piccole dimensioni con solo poche pagine, uno specchio completo può essere indistinguibile da un clic umano su un numero limitato di collegamenti. Tuttavia, un sito Web contenente milioni di pagine richiede necessariamente il mirroring di milioni di richieste HTTP.

I sistemi di analisi del weblog di solito includono meccanismi per tracciare la densità delle richieste geograficamente, e il macchinario statistico che lo fa può rilevare banalmente picchi di molte richieste provenienti da un singolo indirizzo IP o rete in un tempo relativamente breve.

Il proprietario del sito Web può o non può obiettare, a seconda del contesto. Molte aziende sono generalmente felici quando GoogleBot legge i loro siti Web, ad esempio. Possono essere molto meno felici quando notano che un concorrente sta facendo la stessa cosa. Possono anche essere infelici quando notano che il traffico o la potenza di calcolo necessaria per generare le risposte costa loro più denaro di quanto si pensasse di spendere per il servizio.

A seconda del tipo di dati offerti dal server, è possibile acquisire alcune responsabilità legali entrando in possesso di esso. Ad esempio, nell'UE, la direttiva sulla protezione dei dati (e le leggi nazionali che la attuano) disciplinano la gestione dei dati personali.

In generale, se vuoi rispecchiare o raschiare un sito web in modo educato, dovresti iniziare richiedendo /robots.txt , analizzandolo e seguendo le istruzioni in esso contenute. In genere dovresti anche distribuire le richieste al server in modo da non soffocare il tuo traffico. Oggigiorno, alcuni secondi di ritardo tra il completamento di una richiesta e l'avvio di una nuova sono generalmente considerati sufficienti. Il ritardo previsto era più lungo nei primi giorni di Internet, quando le larghezze di banda erano più basse, la potenza di elaborazione era più costosa e i server Web risucchiavano peggio nel bilanciare il carico.

I siti Web possono contenere anche note legali o "termini di utilizzo", che potrebbero interessarti o meno. In alcune giurisdizioni possono essere esecutivi da tribunali civili. In alcune giurisdizioni, il procedimento penale può essere un rischio se non le obbedisci. In alcune giurisdizioni, i tribunali potrebbero non interessarsene affatto. Chiedi al tuo avvocato. Ovviamente, un robot ad ampio spettro al giorno d'oggi non dovrebbe in genere essere in grado di comprendere legalese, solo robots.txt , ma se si sta raschiando un determinato sito Web, dare un'occhiata ai termini potrebbe essere un buon punto di preparazione.

A volte, i termini di utilizzo possono includere richieste ragionevoli da parte degli umani dietro il sito web; se è così, di solito dovresti rispettare i loro desideri.

risposta data 03.04.2018 - 03:30

fonte

Leggi altre domande sui tag tools websites

XSS con input nell'attributo onclick possibile scambiare esponenti pubblici e privati in RSA?

score 5 · Accepted Answer

È evidente? Molto di più: centinaia o migliaia di richieste di fuoco rapido da un singolo indirizzo rimarranno nei log e potrebbero attivare misure anti-DoS o anti-crawler.

È cattivo? Dipende dal sito, dalla velocità di copia e da molti altri fattori. La scansione rapida di un sito Web ospitato sul server di casa di qualcuno potrebbe facilmente sovraccaricare la connessione e rendere il sito non disponibile per altre persone; se è un sito generato dinamicamente su hosting condiviso, lo stesso potrebbe accadere a causa di sovraccarico della CPU.

Dal punto di vista legale, dipende dai termini di servizio del sito e da ciò che intendi fare con la tua copia. Se stai semplicemente copiando il sito per uso personale offline e il ToS non lo proibisce esplicitamente, è improbabile che ci saranno problemi.