Se il file robots.txt di un sito Web di grandi aziende non ha sezione Disallow, significa che sono libero di scrivere codice per eseguire la scansione del loro sito Web? [chiuso]

2

Se il file robots.txt di un sito Web di grandi aziende non contiene alcuna sezione Disallow, significa che sono libero di scrivere codice per eseguire la scansione del loro sito Web?

Il sito web in questione è fondamentalmente un data warehouse per il tipo di informazioni di cui ho bisogno, informazioni che vengono aggiornate di minuto in minuto (quindi effettuerò il polling) e il loro robots.txt file sembra così :

User-agent: *

Sono un'azienda globale, quindi presumo che sappiano come funziona un file robots.txt , significa che posso strisciare, o dovrei prima contattarlo?

Non sto chiedendo da un punto di vista legale, ma più dal punto di vista di uno sviluppatore / esperto di sicurezza che sta intenzionalmente scrivendo il file robots.txt sopra, se lo fai in sostanza dici che la scansione è ok?

    
posta JMK 17.10.2014 - 23:47
fonte

4 risposte

6

Un file robots.txt NON implica alcun permesso legale in un modo o nell'altro. L'unico scopo è limitare i risultati di un crawler per i crawler che scelgono di rispettare il contenuto del file robots.txt.

    
risposta data 18.10.2014 - 01:08
fonte
3

Un file robots.txt vuoto o mancante significa che sei libero di eseguire la scansione del loro intero sito: estendere tale regola a file che contengono testo, ma nessun contenuto effettivo. Ricorda che questo non è un permesso di concessione a lungo termine - se il proprietario del sito inserisce un robots.txt valido in una data successiva, il tuo codice dovrebbe rilevarlo e iniziare a rispettarlo abbastanza rapidamente.

Da robotstext.org :

To allow all robots complete access

User-agent: *
Disallow:

(or just create an empty "/robots.txt" file, or don't use one at all)

    
risposta data 18.10.2014 - 00:59
fonte
0

Eticamente non devi eseguire la scansione di ciò che stanno richiedendo di non eseguire la scansione, ma alcuni degli spider ignorano questo file e eseguono la scansione di tutto ciò che possono.

Legalmente non so se ci sono implicazioni perché potrebbe dipendere dalle leggi di ciascun paese.

Vorrei rimanere dalla parte etica e se qualcuno mi sta dicendo che non dovrò rispettare.

Se non dicono nulla, puoi strisciare a volontà perché sarà lo stesso che farà qualsiasi spider di motori di ricerca.

    
risposta data 18.10.2014 - 15:56
fonte
-1

Non lo vedo come una domanda "legale". È più una questione "morale", è accetabile, dal punto di vista della sicurezza, "gattonare" un sito web che annunci non è vietato ai bot, o sarebbe considerato "hacking" dalla merce? (questo indipendentemente dalla legge consente di eseguire la scansione dei siti Web senza autorizzazione o meno)

Direi - dipende. I crawler possono entrare per uno scopo "buono" o "cattivo". I "bravi" crawler possono quindi essere considerati "buoni comportamenti" o "cattivi comportamenti".

Questo ci dà 3 tipi di crawler:

I "cattivi" crawler, quelli sono sempre considerati "cattivi comportamenti".

"Buoni" crawler, che sono "cattivi comportamenti".

"Buoni" crawler, che sono "bravi comportamenti".

Se il crawler in generale è "buono" o "cattivo", dipende dallo scopo del crawler. Ad esempio il tuo intento. Se il crawler ha l'intento di "sanguinare", "parassitare" o raccogliere dati dal sito Web per lo scopo o di riepilogo dei dati di più siti Web sul tuo sito Web, o anche peggiori, raccogliere indirizzi email o URL da un sito Web per altri usi, I direi che è un "cattivo" crawler. Quindi robots.txt non ha importanza. Lo stesso se si esegue la scansione di buchi di sicurezza (per il proprio piacere) o se si esegue la scansione per fini di visualizzazione offline. Quindi devi sempre chiedere l'autorizzazione prima di eseguire la scansione.

Se invece fai una cosa buona, normalmente un servizio al pubblico. Diciamo che fai un motore di ricerca speciale per determinati tipi di file, un motore di ricerca che consente a un utente di effettuare una ricerca locale su un solo sito web in tempo reale (simile al sito: in google) o se si effettua un servizio mirato ai webmaster, quindi direi che è un "buon" crawler. Diciamo che fai un servizio online per testare la sicurezza di un sito web, o fai un crawler "link checker" che controlla i link morti su tutte le pagine.

Nel primo caso (motore di ricerca speciale), direi che il seguente protocollo robots.txt è una buona cosa. Nel secondo caso, direi che seguire robots.txt è una cosa buona con una piccola eccezione: quindi dovresti ignorare qualsiasi user-agent: * linee, e l'esplicita richiede al webmaster di dare il permesso al tuo bot, come

user-agent: LinkChecker
disallow: 

robots.txt è un modo eccellente per garantire che un webmaster fornisca la tua autorizzazione prima di eseguire qualsiasi scansione che dovrebbe essere limitata ai soli webmaster.

    
risposta data 18.10.2014 - 13:47
fonte

Leggi altre domande sui tag