Cosa rende legale il crawling Web? [chiuso]

Question

Cosa rende legale il crawling Web? [chiuso]

#1 da (9 voti)
#2 da (1 voti)
#3 da (-2 voti)

1

Quando Google, Bing o Yahoo stanno eseguendo la scansione del contenuto da siti Web, cosa lo rende legale? Esiste un registro pubblico di soli crawler autorizzati?
Quando i ricercatori eseguono la scansione di Deep Web , cosa rende legali i loro sforzi?
Quando il tester automatizza i test con Selenium o JMeter e colpisce più volte lo stesso sito, cosa rende illegale lo sforzo?

In ciascuno di questi casi, un'automobile sta consumando la larghezza di banda Internet del sito Web e ne copia i contenuti. Ma alcuni sono considerati legali e altri no.

testing web

posta dzieciou 27.04.2014 - 20:23

fonte

3 risposte

1

Non sapevo che i test automatici che hanno colpito lo stesso sito più volte fossero illegali, ma ha senso se ci pensi.

Penso che sia perché può essere incluso nel reame Denial Of Service se lo si colpisce molto frequentemente (ad esempio più volte al secondo per scopi di "testing").

Scansionare Internet vuol dire solo: strisciare. Non si colpisce una pagina più volte al minuto poiché si sprecano risorse preziose su nulla (una pagina non cambierebbe molto spesso).

risposta data 27.04.2014 - 20:41

fonte

-2

Quando il tester automatizza i test con Selenium o JMeter e fa lo stesso sito più volte, cosa rende illegale il loro sforzo?

Quando un tester colpisce lo stesso (sito esterno che non gli appartiene) con test multipli, ha appena fatto un cattivo test. Quella roba dovrebbe essere derisa.

risposta data 27.04.2014 - 21:31

fonte

Leggi altre domande sui tag testing web

La doppia protezione della password è sicura per l'autenticazione dell'amministratore? Esecuzione dell'operazione in termini di cicli di clock

score 9 · Accepted Answer

A rischio di affermare tautologie ovvie, qualcosa è illegale solo se esiste una legge contro di essa. Quando qualcuno mette su un sito web, è considerato aperto al pubblico per impostazione predefinita. Se ci sono contenuti che dovrebbero essere disponibili solo per determinate persone, spetta al web designer proteggerli in qualche modo.

Quando il contenuto è protetto e qualcuno senza autorizzazione lo accede tramite l'hacking, questo è generalmente considerato moralmente equivalente a trovare la porta della casa di qualcuno chiusa a chiave e quindi irruzione, e ci sono leggi che vietano di farlo nella maggior parte delle giurisdizioni.

L'intento del proprietario del sito web è molto importante. Una buona parte del contenuto di "deep web" è contenuto che i proprietari di siti desiderano rendere disponibili, ma non è facilmente accessibile ai normali web crawler. D'altra parte, se un proprietario inserisce una regola in robots.txt per escludere determinati contenuti da un crawler, e il crawler lo indicizza comunque, questo è considerato più o meno equivalente al vagare sulla proprietà di qualcuno quando c'è un segno NO TRESPASSING in chiaro vista. Ma la maggior parte dei siti web accolgono il traffico dei motori di ricerca, perché indirizza gli utenti effettivi al sito, il che aiuta a raggiungere lo scopo del sito, qualunque sia lo scopo. (Solitamente fare soldi, diffondere informazioni, o entrambi.)

Per quanto riguarda l'uso eccessivo di strumenti di test automatici, questo è qualcosa di molto diverso da un web crawler. Un crawler ha algoritmi per colpire solo una determinata pagina una volta, e il suo scopo principale è quello di indicizzare i siti in modo da indirizzare traffico verso di loro, che la maggior parte dei webmaster ritiene valga il costo in termini di larghezza di banda e potenza del processore. Ma colpire ripetutamente la stessa pagina con uno strumento che non introdurrà nuovi utenti non fa nulla per favorire gli scopi del sito, e quindi i costi che pone sul proprietario del sito sono essenzialmente sprecati. A meno che il proprietario del sito non lo abbia effettivamente richiesto (ad esempio, come parte di un test delle funzionalità del suo sito), è generalmente considerato sgradito e dannoso.