Qual è la strada da percorrere per estrarre i dati dai siti web? [chiuso]

5

Ho pensato a un progetto parallelo che coinvolge lo scraping dei dati web.

Ok, ho letto Ottenere dati da una pagina web in modo stabile ed efficiente e la discussione mi ha dato alcuni spunti.

Nella discussione Joachim Sauer ha dichiarato che è possibile contattare i proprietari dei siti e progettare in qualche modo di fornire i dati che voglio. Il problema che vedo è che i siti Web sono generalmente mal creati e apparentemente raramente hanno modifiche in HTML (non credo che mi aiuteranno), ma i dati sono rilevanti. Ho sofferto molto usando quei siti, quindi mi piacerebbe aggregarli e mostrarli in un modo migliore.

Quindi, andare con lo scraping, in particolare Scrapy (per Python), è un approccio problematico? Ho letto che parse.ly utilizza lo scraping (Python e Scrapy), ma in un altro contesto.

Dato il mio contesto, c'è un approccio migliore rispetto allo scraping? Se vai con lo scraping, come gestire le modifiche della struttura del sito web?

    
posta salaniojr 23.05.2013 - 14:21
fonte

2 risposte

2

Il download dei contenuti di un sito Web può causare una vasta gamma di problemi per i proprietari dei siti web.

  • Colora il server utilizzando tutte le risorse disponibili per alimentare le richieste di script.
  • Fai un errore ed esegui richieste che potrebbero apparire come un attacco.
  • Rimani bloccato in ciò che viene chiamato robot trap e continua a scaricare la stessa pagina perché l'URL cambia costantemente.
  • Potresti ignorare il file robotos.txt e accedere a parti del sito Web che i proprietari non vogliono nemmeno a te.

È consigliabile utilizzare un adeguato strumento di scansione web. L'utilizzo dello strumento giusto per il lavoro garantirà il rispetto delle prestazioni, della sicurezza e dell'utilizzo del server web. Questi semplici script Python / PHP per lo scraping di siti Web non fanno altro che danneggiare i server che tendono agguati con migliaia di richieste Web in modo incontrollato.

Dovresti utilizzare un web crawler come Heritrix per scaricare il sito web in un file di archivio. Una volta creato il file di archivio, puoi elaborarlo utilizzando Python / PHP tutto ciò che desideri. Poiché è memorizzato localmente sul tuo hard disk, non c'è nulla di male in quante volte lo hai letto.

Le questioni etiche e legali relative all'utilizzo di contenuti da un altro sito Web rappresentano un problema completamente diverso. Non ho intenzione di andare lì, perché è tra te e il proprietario del sito web. Quello che non voglio vedere sono le persone che martellano inutilmente i siti web mentre cercano di scaricare il contenuto. Essere rispettoso e navigare in rete con le stesse regole seguite da aziende come Google, Bing e Yahoo.

    
risposta data 23.05.2013 - 15:59
fonte
-2

Raschiare è più come rubare. Sta usando un contenuto senza permesso. Altrimenti sarebbe un'API che ti fornisce i dati che cerchi. Quindi se sai come aprire la serratura di una tua porta, puoi aprirla. Ma se cambia la sua serratura con un'altra marca, devi capire come gestirlo.

    
risposta data 23.05.2013 - 15:01
fonte

Leggi altre domande sui tag