Questa è una situazione che ho incontrato in diverse occasioni. Condurrò una ricerca sul web in Google, un link a un file (.pdf per esempio) ti porterà su quel file sul server. Si apre nel tuo browser, puoi salvare il file.
Ma quando si torna indietro attraverso l'URL per saperne di più sul sito Web che lo contiene e se ci sono altre informazioni che possono aiutare la tua ricerca, ti viene negato l'accesso. Viene dato un messaggio di errore o portato alla pagina di accesso per un portale web. Quale può essere tenuto in considerazione configurando il server per impedire l'attraversamento della directory.
Anche se capisco che la mancanza di un file robot.txt potrebbe contribuire a questo, alcuni di questi siti non farebbero affidamento su questi per protezione in quanto un crawler web malvagio ignorerebbe comunque il file. Per non parlare del file robot.txt che enumera molti dei tuoi file e la struttura di directory di un hacker.
Quindi sarebbe troppo presumere che alcuni di questi siti non fossero protetti da firewall fisici e, data l'autenticazione del server che negava il passaggio ad altre parti del sito, la scansione del sito poteva essere eseguita senza avere le credenziali di accesso .
Quindi quali buchi di loop è lo sfruttamento del crawler di Google che gli consente di aggirare possibili firewall, autenticazione del server e protezione del portale per scoprire la struttura di directory di quel server e creare collegamenti diretti che consentano a qualcuno senza credenziali di vedere quel file?