Che cosa è esattamente un indicizzatore del motore di ricerca. Dove iniziare a costruirne uno? [chiuso]

0

Per uno dei progetti di uni ci è stato assegnato il compito di creare un motore di ricerca personalizzato, di nicchia. I miei college e io abbiamo suddiviso i compiti tra loro in modo da poter affrontare il progetto nel suo complesso più facilmente. La mia parte è creare l'indicizzatore. Ho già letto la pagina di wikipedia sugli indicizzatori dei motori di ricerca e alcuni altri articoli correlati, ma sto ancora cercando di capire esattamente come funziona e come appare.

Per me è ovvio che non è solo una tabella normale con un indice e una colonna descrption. Quindi la mia domanda sarebbe: che cos'è un indicizzatore di motori di ricerca, come appare l'architettura e da dove cominciare a costruirne uno?

    
posta Dragan 20.03.2013 - 10:03
fonte

1 risposta

7

Al suo interno, un indice del motore di ricerca è semplicemente un indice che supporta la ricerca a testo integrale . Il modo più semplice per farlo è un semplice indice invertito , cioè per ogni parola che si verifica in uno dei documenti che hai indicizzato, memorizza una lista di riferimenti a tutti i documenti che contengono questa parola.

Per un progetto universitario, probabilmente è sufficiente, ma ovviamente c'è un margine di miglioramento infinito. È possibile combinare più parole di ricerca utilizzando AND e OR logic e avere un peso per ogni documento in base a dove e quanto spesso appare una parola. Questo è lo stato dei motori di ricerca WWW intorno al 1998, prima che Google lo rivoluzionasse con il loro algoritmo PageRank . Da allora, hanno avuto centinaia (se non migliaia) di persone che lavorano per migliorarlo continuamente.

Inoltre, per supportare un indice per l'intero WWW (o anche una piccola parte di esso), hai bisogno di un'architettura distribuita, qualcosa come MapReduce .

    
risposta data 20.03.2013 - 10:16
fonte

Leggi altre domande sui tag