Crea il tuo crawler web per eseguire la scansione di un sito Web specifico con più voci

0

Che tipo di lingue sarebbero in grado di gestire scrivendo il proprio web crawler?

Il PHP potrebbe gestirlo? Sto abbastanza bene con PHP (seguendo le migliori pratiche, ecc.).

Ma mi piacerebbe una buona ragione per imparare una nuova lingua, se necessario.

L'idea è di eseguire la scansione di un sito Web specifico con più voci, proprio come un feed RSS, ma non offrono un feed RSS del sito ...

    
posta MattyD 02.08.2011 - 03:00
fonte

2 risposte

5

Qualsiasi linguaggio dotato di buone funzionalità HTTP incorporate per il download e l'analisi dei documenti Web (mal formati) andrebbe bene. Consiglierei un linguaggio di scripting come Python, perché un webcrawler generalmente trascorre la maggior parte del tempo in attesa di I / O di rete (risposte DNS o HTTP), quindi le prestazioni generalmente non sono un problema. Python ha anche librerie decenti per la gestione delle connessioni HTTP e l'analisi di HTML. Hai bisogno di una libreria specificatamente progettata per gestire l'HTML male formato , perché il web è principalmente HTML schifoso. Se scegli Python, puoi usare qualcosa come libxml2dom .

    
risposta data 02.08.2011 - 03:34
fonte
2

Ti consiglierei di usare python, ma è perché so solo come codificare un crawler in python e Java. E sicuramente non ti consiglio di andare a 5 piedi vicino a Java per questo compito.

Dai un'occhiata a:
Mechanize - ottimo strumento per la navigazione web
Scrapy - buon framework per schermare scraping e web crawling

Una buona ragione è che hai già alcuni framework costruiti in python solo per questo.

    
risposta data 02.08.2011 - 06:22
fonte

Leggi altre domande sui tag