Dissezione dei servizi di indicizzazione di Google

0

Ci sono più di alcune domande che vengono in mente quando qualcuno pensa ai servizi di indicizzazione di Google. Jeff Atwood ha scritto su di loro a L'elefante nella stanza: Google Monoculture e Problemi nella casa di Google .

Ho due domande:

  • In che modo Google indicizza i siti web dinamici?

    Questo sito ha pagine dinamiche, QUESTIONS , TAGS , USERS , BADGES , UNANSWERED , ASK QUESTION . Il contenuto di queste pagine viene generato dinamicamente, pertanto accediamo al contenuto dinamico e non ai file fisici sul server. Ma come fa Google a mostrare ogni domanda sul sito o su altri siti Web dinamici?

  • Che cosa indice e mantiene Google sui suoi server? Copia la pagina completa nel suo server o solo il titolo, i meta tag e il corpo?

posta Pankaj Upadhyay 29.11.2011 - 07:45
fonte

2 risposte

1

How does google index dynamic websites?

"Crawler" è un termine generico per qualsiasi programma (come un robot o uno spider) utilizzato per rilevare e scansionare automaticamente i siti Web seguendo i collegamenti da una pagina web a un'altra. Il crawler principale di Google si chiama Googlebot . Consulta questo elenco di crawler di Google .

Oggi la maggior parte dei crawler non può indicizzare l'intera pagina dinamica, ma indicizzerà la maggior parte del contenuto su tutte le pagine e questo è esattamente il risultato finale che stiamo cercando.

Dopo aver scansionato una pagina, il passo successivo è indicizzare il suo contenuto. La pagina indicizzata viene archiviata in un gigantesco database, da cui può essere successivamente recuperata.

In sostanza, il processo di indicizzazione sta identificando le parole e le espressioni che meglio descrivono la pagina e assegnano determinate parole chiave alla pagina. Per un umano non sarà possibile elaborare tali quantità di informazioni ma generalmente i motori di ricerca si comportano bene con questo compito.

A volte potrebbero non avere il significato di una pagina giusta, ma se li aiuti ottimizzandolo, sarà più facile per loro classificare le tue pagine correttamente e ottenere punteggi più alti.

Quando arriva una richiesta di ricerca, il motore di ricerca la elabora, cioè confronta la stringa di ricerca nella richiesta di ricerca con le pagine indicizzate nel database. Poiché è probabile che più di una pagina (praticamente milioni di pagine) contenga la stringa di ricerca, il motore di ricerca inizia a calcolare la pertinenza di ciascuna delle pagine nel suo indice con la stringa di ricerca.

Per un elenco dei fattori di ranking puoi vedere Fattori di ranking dei motori di ricerca e googlewebmastercentral blog. Un buon articolo riguardante il problema dell'indicizzazione è "Come ottimizzare un sito web dinamico" che chiarirà i dubbi relativi all'indicizzazione dei siti Web dinamici.

What does Google index and keep on its servers?

Dall'articolo di Wikipedia su Indice dei motori di ricerca :

Search engine indexing collects, parses, and stores data to facilitate fast and accurate information retrieval. Index design incorporates interdisciplinary concepts from linguistics, cognitive psychology, mathematics, informatics, physics, and computer science. An alternate name for the process in the context of search engines designed to find web pages on the Internet is Web indexing.

    
risposta data 29.11.2011 - 10:07
fonte
1

How does google index dynamic websites?

Google e ogni altro motore di ricerca, usa bot Internet chiamati web crawler per indicizzare i siti web. Dall'articolo Wikipedia :

A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion. Other terms for Web crawlers are ants, automatic indexers, bots, Web spiders, Web robots, or—especially in the FOAF community—Web scutters.

Essenzialmente, e senza entrare nei dettagli, il web crawler visita periodicamente questo e altri siti web e "vede" esattamente lo stesso che vedi quando visiti un sito. Non fa differenza se si tratta di un sito Web statico o dinamico, il crawler "vede" l'output sottoposto a rendering come lo vedi nel tuo browser.

Il crawler visita i siti ad alto traffico più volte al giorno e memorizza le informazioni di indicizzazione ogni volta, dando l'impressione di avere accesso ai dati in tempo reale. Ci sono un sacco di web crawler open source tu può esaminare per ottenere una comprensione più tecnica dei concetti coinvolti. Il crawler web di Google è chiamato Googlebot e c'è un pagina faq ufficiale per questo.

What does Google index and keep on its servers?

Questo tipo di informazioni non è completamente pubblicamente disponibile. Possiamo presumere che memorizzino e analizzino tutto che avrebbe senso per la ricerca. Ci sono un sacco di discorsi e presentazioni su interni di Google in varie conferenze ma nessuna fonte definitiva su esattamente quale tipo di informazioni archiviano.

Per quanto riguarda l'archiviazione e l'analisi delle informazioni, c'è una buona descrizione dell'indice di Google sull'articolo di Wikipedia su Piattaforma Google :

Like most search engines, Google indexes documents by building a data structure known as inverted index. Such an index allows obtaining a list of documents by a query word. The index is very large due to the number of documents stored in the servers.

The index is partitioned by document IDs into many pieces called shards. Each shard is replicated onto multiple servers. Initially, the index was being served from hard disk drives, like it's done in traditional information retrieval (IR) systems.

E non indicano solo i contenuti del sito web, ma anche diversi tipi di file binari , tutto ciò che può essere trovato sul Web davvero.

    
risposta data 29.11.2011 - 08:03
fonte

Leggi altre domande sui tag