Blocco dell'indirizzo IP per il servizio di web-scraping

-1

Sfondo

Considera il seguente scenario:

  1. Link. L'utente fornisce un link ad un sito web mal formattato (ad es. contenuto della community creative ).
  2. Scrape. Il server scarica il contenuto (web scrap), sempre limitato.
  3. Formato. il server formatta il contenuto (ad esempio, esegue l'elaborazione del linguaggio naturale).
  4. Restituzione. il server invia i risultati formattati all'utente.

Problema

Il server che ospita il sito Web con formattazione insufficiente ( host ) può bloccare il server che estrae il contenuto ( scraper ). Se ciò accade, l'utente non può più utilizzare il servizio per modificare automaticamente il formato.

Supponiamo che i termini del servizio non vietino lo scraping, né che sia disponibile un'API per estrarre i dati direttamente.

Commenti sul copyright

  • Il contenuto non è soggetto a copyright: è un contenuto di creatività pubblica o già di dominio pubblico.
  • Il contenuto proviene da domini autorizzati che sono stati controllati (ad esempio, lavori del governo federale degli Stati Uniti).
  • Per quello che vale, non so nemmeno se i siti bloccheranno le richieste (soprattutto considerando quanto rare saranno le richieste e probabilmente farò un pre-caching). È per lo più accademico a questo punto

Domanda

Quali strategie utilizzeresti (ad esempio utilizzando una rete virtuale o un servizio cloud) in modo che l'indirizzo IP del scraper possa facilmente cambiare (potenzialmente in modo dinamico) per evitare di essere bloccato da Host

    
posta Dave Jarvis 23.01.2013 - 20:48
fonte

5 risposte

5

Ti sto prendendo in parola riguardo alla legalità del sito che stai proponendo. Il blocco degli annunci o l'archiviazione dei contenuti sono due usi che vengono in mente. Posso vedere dove entrare nei dettagli di quell'aspetto spingere la domanda nel territorio di TL, DR o oscurare la domanda a portata di mano.

Il tuo commento sulla rimozione di documenti pubblici da siti governativi aggiunge un terzo caso di utilizzo legittimo. I siti Gov't sono spesso formattati in modo orribile e non incrociano bene le informazioni correlate, quindi posso vedere i vantaggi di tale servizio.

Probabilmente avrai bisogno di due server. Uno avrà un indirizzo fisso, l'altro avrà l'indirizzo variabile. Suppongo che tu abbia bisogno di almeno un indirizzo fisso in modo che gli utenti possano trovare il servizio che stai fornendo.

L'indirizzo fisso presenterà il tuo sito principale in cui arrivano le richieste di scrap di blocco degli annunci. Quel server accoderà le richieste che riceve; Sto pensando che una coda di messaggi gestirà bene questo. Il server IP fisso inoltrerà i messaggi e riceverà le risposte quando il server di indirizzi variabili è disponibile. Considera di avere una coda "in sospeso" oltre alle code "richieste" e "ricevute". In questo modo puoi riprovare un messaggio nel caso in cui il server IP variabile scendesse prima che la richiesta fosse ricevuta.

Il server IP variabile avrà un paio di requisiti:

  • Ricevi messaggi per raschiare i siti di annunci
  • Restituisce i siti formattati in un messaggio di risposta
  • Rileva quando il server appare bloccato dal sito di destinazione
  • Richiedi un nuovo indirizzo IP dal cloud di hosting
  • Notifica al server IP fisso del nuovo indirizzo
  • Se è necessario un riavvio, disponi di una sorta di livello di persistenza per tenere traccia di ciò su cui sta lavorando.

Dai un'occhiata a vari fornitori di servizi cloud per trovare un server in grado di modificare facilmente / rapidamente gli indirizzi IP. A mia conoscenza, molti dei maggiori provider forniscono automaticamente un nuovo indirizzo IP a ogni riavvio della macchina. Come bonus aggiuntivo, potrebbe non essere nemmeno necessario mantenere il server IP variabile attivo e funzionante per tutto il tempo. Potrebbe semplicemente essere invocato dal server IP fisso in base alle esigenze, sebbene vi sia un certo ritardo per far girare un server virtuale in questo modo.

Non sono sicuro che nessun'altra tecnologia possa fornire il potenziale intervallo di indirizzi IP di cui potresti aver bisogno. Una rete virtuale richiede ancora un indirizzo IP esterno per richiedere il contenuto e l'IP esterno è quello che verrà bloccato. Dubito che un ISP sarebbe disposto / desidera che tu stia pedalando attraverso indirizzi IP come quello anche se hanno un grande blocco disponibile.

    
risposta data 23.01.2013 - 22:07
fonte
17

What strategies would you employ ... to avoid being blocked by the host?

Non lo farei. Qualunque (potenzialmente spinosa) questione legale a parte, se un amministratore del sito chiarisce che non sei ricercato, dovresti davvero rispettarlo. Se non ti piace il modo in cui l'amministratore esegue le cose, smetti di usare quel sito, o addirittura prova a giocare "nome e vergogna" e a dire agli altri perché questo non è un buon sito da usare. Ma giocare a whack-a-mole con le politiche di sicurezza dell'amministratore non è mai una buona mossa. Ti fa perdere tempo, spreca il tempo dell'amministratore e potrebbe facilmente finire per esporsi alla responsabilità legale.

    
risposta data 23.01.2013 - 20:56
fonte
4

Prima lasciatemi dire che sono completamente d'accordo con la risposta di Mason Wheeler.

Se l'utente ha un accesso browser legittimo (includendo eventualmente una sorta di autenticazione), un approccio consiste nell'utilizzare un plugin / estensione nel browser per acquisire la pagina , inviarlo al server di pulizia e quindi reindirizzare il browser alla pagina ripulita. Ciò elimina completamente qualsiasi necessità di eseguire ricreazioni coinvolte nella danza dell'autenticazione.

Sia Firefox che Chrome possono essere estesi per farlo. Sfoglia le librerie di estensioni e probabilmente ne troverai diverse che stanno già facendo circa l'80% + di ciò che ti serve.

    
risposta data 23.01.2013 - 21:28
fonte
3

Soluzione non tecnica: hai preso in considerazione la possibilità di contattare i proprietari dei contenuti?

Se il contenuto è PD o CC, forse il proprietario dei contenuti sarebbe disposto a fornirti un archivio del contenuto, in modo da non doverti preoccupare dello scraping.

Se il proprietario del sito non è il proprietario del contenuto originale, prova a trovare la fonte originale da cui l'ha ottenuto.

    
risposta data 23.01.2013 - 22:12
fonte
-3

Octoparse offre la rotazione IP. Nella modalità "Cloud Extraction", Octoparse ha molti indirizzi IP da modificare automaticamente per evitare di essere bloccato dall'host.

    
risposta data 07.06.2016 - 10:33
fonte