Voci dispari del motore di ricerca

4

Un cliente ha trovato una dozzina di URL validi che puntavano ai documenti relativi ai clienti esistenti su Yahoo. Questi URL non erano pubblici e certamente non ricercabili sul sito del cliente. I documenti hanno difficoltà a indovinare nomi come https://site/dir/hardtoguessname.pdf ; secondo il sequenziatore di Burp, l'entropia di hardtoguessname è stimata essere superiore a 100 bit, che dovrebbe essere abbastanza buona da impedire semplici congetture.

L'intera faccenda è strana per due motivi: in primo luogo, ci sono regolarmente centinaia o migliaia di questi documenti - perché dove solo quei pochi indicizzati? In secondo luogo, questi URL sono stati indicizzati solo da Yahoo ma né da Google né da Bing.

Non penso che quegli URL siano stati indicizzati dalla normale scansione. È possibile che un utente possa per caso aver indicizzato tali URL, ad esempio, utilizzando la barra degli strumenti di Yahoo o utilizzando la posta di Yahoo?

    
posta countermode 16.08.2016 - 17:21
fonte

1 risposta

4

L'utilizzo di un nome difficile da indovinare è in alcun modo un metodo appropriato per impedire l'indicizzazione del motore di ricerca. Anche se a volte può funzionare, è il modo meno affidabile ed efficace per farlo.

Dovresti invece usare il metodo ufficialmente supportato che sta posizionando un file robots.txt nella tua web root specificando quali file e directory dovrebbero essere indicizzati. Questo è supportato da tutti i principali motori di ricerca tra cui Google, Bing, Yahoo, AOL, ecc.

La sintassi è piuttosto semplice. Un semplice esempio per impedire l'indicizzazione della directory private è:

User-agent: *
Disallow: /private/

Vedi la relativa pagina di Wikipedia su robots.txt per ulteriori dettagli.

Si noti che i documenti privati non dovrebbero essere accessibili direttamente in entrambi i modi. Il tuo sito web dovrebbe utilizzare una qualche forma di sistema di autenticazione per controllare ciò a cui l'utente può accedere e le informazioni private oi documenti non dovrebbero essere accessibili dall'interno della web root.

    
risposta data 16.08.2016 - 17:31
fonte

Leggi altre domande sui tag