In che modo Google esegue la scansione di pagine Web aggiornate di frequente?

2

Sto cercando di costruire un motore di ricerca di nicchia molto piccolo, utilizzando Nutch per eseguire la scansione di siti specifici. Alcuni dei siti sono notizie / siti di blog. Se eseguo la scansione, ad esempio, techcrunch.com, memorizzando e indicizzando la loro prima pagina, entro poche ore il mio indice per quella pagina non sarà aggiornato.

Un grande motore di ricerca come Google ha un algoritmo per eseguire nuovamente la scansione delle pagine aggiornate di frequente molto frequentemente, anche ogni ora? Oppure segna solo pagine frequentemente aggiornate molto basse in modo che non vengano restituite?

Inoltre, come posso gestirlo nel mio indice?

    
posta Smooth Almonds 26.04.2012 - 12:34
fonte

1 risposta

1

Sì, Google gestisce la frequenza di quanto tempo i crawler stanno visitando un sito. Ad esempio, tutti i siti di notizie che sono registrati su Google News ricevono visite più frequenti di altri siti, inoltre alcuni siti web con risultati live mostrano i visitatori del crawler ogni secondo (ricerca in tempo reale). Quindi, significa che stanno usando un qualche tipo di algoritmo in modo che quei robot diano la priorità alle loro visite a tali siti.

    
risposta data 26.04.2012 - 12:55
fonte

Leggi altre domande sui tag