Miglior algoritmo per correlare articoli simili [chiuso]

3

qual è il modo migliore per correlare e raggruppare articoli simili?

Intendo qualcosa come Google News, che raggruppa sotto un unico argomento diversi articoli provenienti da fonti diverse.

Non mi interessa qualcosa di molto sofisticato, è solo importante essere efficienti in termini di velocità e risorse necessarie. Posso vivere con una correlazione solo su brevi testi come i titoli degli articoli, non l'articolo stesso.

Ho letto un articolo che parla di tuple di due o tre parole (le migliori con tre) da estrarre e utilizzare per produrre un punteggio per ottenere la correlazione, ma è troppo accademico per me

    
posta spider 22.11.2011 - 12:46
fonte

3 risposte

2

Puoi usare i Vettori di Lucene Term.

Ecco un post sul blog che lo spiega in dettaglio. link

Lucene è una libreria di indicizzazione: link

    
risposta data 22.11.2011 - 14:10
fonte
0

Se stai usando Solr, allora c'è un MoreLikeThisHandler

E nel caso utilizzi Sunspot con esso, quindi è ancora più semplice

post = Post.first Sunspot.more_like_this(post, Post, Page) do fields :title, :body with(:updated_at).greater_than(1.month.ago) facet(:category_ids) end

    
risposta data 20.05.2014 - 21:10
fonte
-2

LDA è sicuramente un modo per svolgere il tuo lavoro, tuttavia è complicato e riguarda l'articolo.

"correlazione solo su testi brevi come i titoli degli articoli", le informazioni correlate nei titoli sono troppo piccole per costruire qualsiasi modello

    
risposta data 22.11.2011 - 15:01
fonte

Leggi altre domande sui tag