Ho un insieme di n elementi (1,000 < = n < = 100,000) e posso calcolare il grado di somiglianza tra ogni coppia, cioè un valore da 0 (molto simile) a 1 (molto diverso). Vorrei raggruppare gli elementi in base al loro grado di somiglianza.
Ho pensato di rappresentarli come un grafico, gli elementi sono i vertici ei bordi ponderati sono la somiglianza tra loro. Ho letto l'algoritmo MCL ma penso che non sia l'approccio migliore dal momento che il mio grafico è completo.
D'altra parte, poiché ci sono molti elementi, forse calcolare la somiglianza tra ogni coppia non è la migliore pratica (voglio un algoritmo veloce). Leggo anche qualcosa sugli algoritmi di clustering leader, ma, ancora una volta, non sono sicuro che sia l'approccio migliore perché, per quanto ne so, è abbastanza incline a fallire a causa della sua golosità (vorrei qualcosa di più robusto). / p>
Modifica: ho dimenticato di menzionare che conosco una soglia per la quale quando il confronto tra due elementi è più alto di quello, allora so che appartengono a diversi cluster.