In che modo il crawler web di Google può bypassare i portali?

3

Questa è una situazione che ho incontrato in diverse occasioni. Condurrò una ricerca sul web in Google, un link a un file (.pdf per esempio) ti porterà su quel file sul server. Si apre nel tuo browser, puoi salvare il file.

Ma quando si torna indietro attraverso l'URL per saperne di più sul sito Web che lo contiene e se ci sono altre informazioni che possono aiutare la tua ricerca, ti viene negato l'accesso. Viene dato un messaggio di errore o portato alla pagina di accesso per un portale web. Quale può essere tenuto in considerazione configurando il server per impedire l'attraversamento della directory.

Anche se capisco che la mancanza di un file robot.txt potrebbe contribuire a questo, alcuni di questi siti non farebbero affidamento su questi per protezione in quanto un crawler web malvagio ignorerebbe comunque il file. Per non parlare del file robot.txt che enumera molti dei tuoi file e la struttura di directory di un hacker.

Quindi sarebbe troppo presumere che alcuni di questi siti non fossero protetti da firewall fisici e, data l'autenticazione del server che negava il passaggio ad altre parti del sito, la scansione del sito poteva essere eseguita senza avere le credenziali di accesso .

Quindi quali buchi di loop è lo sfruttamento del crawler di Google che gli consente di aggirare possibili firewall, autenticazione del server e protezione del portale per scoprire la struttura di directory di quel server e creare collegamenti diretti che consentano a qualcuno senza credenziali di vedere quel file?

    
posta tk1974 24.05.2014 - 09:53
fonte

1 risposta

5

Alcune volte ho l'illusione che GoogleBot abbia accesso speciale alla struttura delle directory, ma ciò non significa che ci sia una scappatoia o una vulnerabilità.

Alcuni dei motivi di questa illusione:

  • I collegamenti potrebbero essere al di fuori del sito web. Posso postare sul mio blog un collegamento a un Pastebin che non è elencato ovunque su pastebin.com.
  • Le pagine che avevano i link ai tuoi documenti potrebbero essere state eliminate o nascoste ma Google ha ancora il link al file.
  • Il file Sitemap può avere un elenco di collegamenti ai file su quel sito Web.
  • Il proprietario del sito web può utilizzare gli Strumenti per i Webmaster di Google e caricare un elenco di link sul sito Web.
  • Qualcosa che è quasi ma non proprio una vulnerabilità è che GoogleBot decompila le risorse flash e indicizza il testo e i collegamenti trovati lì.
  • Può anche eseguire JavaScript e analizzare il contenuto Ajax.
  • C'è un nuovo agente utente di Googlebot che cerca contenuti per dispositivi mobili. L'interfaccia mobile può essere configurata in modo errato per mostrare più informazioni e avere più accesso rispetto a quella classica.
  • Come altri hanno commentato, i siti Web possono fornire ulteriori o diversi dettagli quando l'IP o l'agente utente in visita indicano Googlebot. Questo è chiamato clock e non è tollerato da Google o da qualsiasi altro motore di ricerca.

Googlebot ha regole semplici, segue i collegamenti e rispetta il file robots.txt e il tag nofollow. Indica le informazioni che devono essere accessibili agli utenti di Google e non violare la sicurezza o la privacy dei siti Web sottoposti a scansione. Se c'è qualcosa che indica il contrario, allora ho il sospetto che ci sia un sito web con missconfiguration piuttosto che malvagità o magia di Googlebot.

    
risposta data 24.05.2014 - 10:28
fonte

Leggi altre domande sui tag