C'è qualche ragione per consentire il recupero di Python delle pagine del mio server Web?

0

Continuo a vedere "richieste python-richieste / 1.1.0 CPython / 2.7.4 Linux / 3.8.0-19-generic" ad es. dai server di Amazon sul mio sito web. È un po 'inquietante. Chi istituirebbe un server Amazon per la scansione dei siti Web? Dovrei semplicemente bloccarli? Acclamazioni

    
posta Multivariate 22.08.2013 - 07:53
fonte

1 risposta

4

Hai un sito Web; è inteso per fornire pagine a chiunque le chieda. Questo è il punto centrale di un sito Web. Che senso avrebbe di rifiutarsi di inviare la pagina ad alcune persone? Soprattutto se il criterio di esclusione è la stringa User-Agent , che viene scelta liberamente dal cliente. Qualsiasi individuo con cattive intenzioni può mascherare il suo software in modo che appaia, dalla tua parte, come un semplice Internet Explorer o Chrome o altro; anche se fosse ragionevole escludere i client HTTP che sono stati scritti in Python, il filtraggio sull'utente-utente rifiuterebbe semplicemente i clienti che sono abbastanza onesti da ammettere di usare Python come linguaggio di programmazione.

È plausibile che questo specifico client sia una sorta di Web crawler . Non si può davvero impedire ai web crawler di estrapolare i dati dal proprio sito Web, purché si consenta la navigazione da utenti non autenticati, sebbene sia possibile installare alcune misure di mitigazione contro il download sistematico del sito (come fa Google, per Google Maps: vedere troppe richieste da un determinato cliente entro un dato periodo di tempo, sospettano di giocare male). puoi documentare la tua riluttanza a vedere il tuo sito ispezionato dai crawler Web, con un robots.txt file; la maggior parte dei crawler onora questo file. Ma questo non fermerà nessun crawler determinato. La migliore linea di condotta è:

  • implementa e implementa procedure di autenticazione, rifiutando l'accesso a persone che non sono state debitamente autenticate con, ad esempio, un nome utente o una password;
  • o accetta che i dati pubblici siano pubblici, e non esistono cose come "pubblico tranne che per persone malvagie".
risposta data 22.08.2013 - 14:32
fonte

Leggi altre domande sui tag