Attualmente sto lavorando a un progetto per animali domestici in Python con scrapy che raschia diversi siti di tipo ebay per le offerte immobiliari nella mia zona. Il fatto è che alcuni siti sembrano fornire dati più strutturati nelle loro pagine web (ad esempio, presentare una tabella di tutte le utilità che l'appartamento ha, ecc.) Mentre altri no. Quindi devo fare un po 'di analisi sui dati che faccio usando il meccanismo della pipeline della libreria.
La mia domanda è, tuttavia, quanta elaborazione dovrebbe effettivamente fare un crawler? Dovrebbe semplicemente estrarre pezzi grezzi di testo in base ad alcuni xPaths in modo da non sprecare potenza di elaborazione su di essi e lasciare che i dati vengano analizzati più avanti sulla riga da qualche altro lavoratore o dovrebbero farlo da solo?
Sembra che ci siano molte linee guida online su buone pratiche di crawling del web, ma non hanno trovato nessun buon progetto di crawler. Qualche suggerimento o regola empirica?