qual è il modo migliore per correlare e raggruppare articoli simili?
Intendo qualcosa come Google News, che raggruppa sotto un unico argomento diversi articoli provenienti da fonti diverse.
Non mi interessa qualcosa di molto sofisticato, è solo importante essere efficienti in termini di velocità e risorse necessarie. Posso vivere con una correlazione solo su brevi testi come i titoli degli articoli, non l'articolo stesso.
Ho letto un articolo che parla di tuple di due o tre parole (le migliori con tre) da estrarre e utilizzare per produrre un punteggio per ottenere la correlazione, ma è troppo accademico per me