In che modo Google memorizza la sua matrice PageRank?

0

Sono curioso di sapere in che modo Google memorizza la matrice utilizzata nell'algoritmo PageRank; e sto cercando una struttura dati per archiviare una matrice sparsa molto grande (non adatta alla memoria di un singolo computer) ed efficiente (non sono sicuro di cosa significhi ancora) eseguire operazioni su di essa.

Se è disponibile un white paper, per favore pubblica un link o un titolo (ho fatto qualche ricerca e non sono riuscito a trovarne uno), e se no, sarebbe bello se tu potessi pubblicare link o solo nomi di documenti o libri che potrebbero aiutarmi a iniziare.

Nella mia ricerca iniziale ho trovato il magro formato riga-saggio [1], e ho iniziato a leggere Sparse Matrix Technology [2]; quindi per favore lasciatemi se sono sulla strada giusta qui.

  • [1] Chang, 1969 Curtis e Reid, 1971 Gustavson, 1972
  • [2] Pissanetzky, 1984
posta Yuriy Nemtsov 22.10.2013 - 06:07
fonte

1 risposta

1

Dipende davvero dalla scala che hai in mente. Le matrici sparse ti porteranno così lontano ... Per Google e simili applicazioni su larga scala, pensa di più lungo la linea dei database distribuiti.

Per menzionare, sono in effetti diversi documenti disponibili (tramite Google Scholar, per esempio) che discutono l'approccio di Google allo storage distribuito ( BigTable ), o Amazon's ( SimpleDB ), ecc. C'è anche un sistema open source chiamato Hypertable , che può essere eseguito su Apache Hadoop per esempio.

Se sei veramente interessato a matrici sparse, penso che Davis (2006) sia un testo molto dignitoso e molto aggiornato. Il libro include anche il pacchetto CSparse, pronto per l'uso. (Non ho esperienza diretta con esso, quindi non posso commentare la scalabilità ...) Si noti che il sito web personale dell'autore elenca altri pacchetti e risorse, come SuiteSparse.

    
risposta data 02.04.2014 - 21:49
fonte

Leggi altre domande sui tag