Sto lavorando su un sito di recensioni, dove c'è un problema minore con le recensioni duplicate quasi tra gli articoli. Solo poche parole sono cambiate. Sarebbe molto bello poter scoprire questi duplicati prima che siano approvati da un moderatore, e spero che qualcuno possa inserire la migliore strategia per arrivarci.
Il sito sta eseguendo Ruby on Rails su un database Postgres e usando Thinking Sphinx per la ricerca (tutto su Heroku), e finora l'opzione migliore che vedo è quella di estrarre tutte le recensioni dal db e utilizzare un modulo come amatch per confrontare le stringhe. Non molto efficiente, quindi in questo caso credo che dovrò limitare il numero / l'età delle recensioni per la scansione dei duplicati.
Qualcuno ha un'idea migliore?