Ho pensato a un progetto parallelo che coinvolge lo scraping dei dati web.
Ok, ho letto Ottenere dati da una pagina web in modo stabile ed efficiente e la discussione mi ha dato alcuni spunti.
Nella discussione Joachim Sauer ha dichiarato che è possibile contattare i proprietari dei siti e progettare in qualche modo di fornire i dati che voglio. Il problema che vedo è che i siti Web sono generalmente mal creati e apparentemente raramente hanno modifiche in HTML (non credo che mi aiuteranno), ma i dati sono rilevanti. Ho sofferto molto usando quei siti, quindi mi piacerebbe aggregarli e mostrarli in un modo migliore.
Quindi, andare con lo scraping, in particolare Scrapy (per Python), è un approccio problematico? Ho letto che parse.ly utilizza lo scraping (Python e Scrapy), ma in un altro contesto.
Dato il mio contesto, c'è un approccio migliore rispetto allo scraping? Se vai con lo scraping, come gestire le modifiche della struttura del sito web?