Sto cercando di costruire un motore di ricerca di nicchia molto piccolo, utilizzando Nutch per eseguire la scansione di siti specifici. Alcuni dei siti sono notizie / siti di blog. Se eseguo la scansione, ad esempio, techcrunch.com, memorizzando e indicizzando la loro prima pagina, entro poche ore il mio indice per quella pagina non sarà aggiornato.
Un grande motore di ricerca come Google ha un algoritmo per eseguire nuovamente la scansione delle pagine aggiornate di frequente molto frequentemente, anche ogni ora? Oppure segna solo pagine frequentemente aggiornate molto basse in modo che non vengano restituite?
Inoltre, come posso gestirlo nel mio indice?