Sto cercando un modo per confrontare un insieme di file con un determinato file con ogni confronto dandomi una metrica di "vicinanza". Dovrei quindi essere in grado di ordinare in base alla metrica per trovare il file più vicino. Ho preso in considerazione l'utilizzo di diff, ma afaik questo fornisce solo un sì o un no sulla corrispondenza di una determinata riga, che è una scala troppo grande per i miei scopi e per i miei scopi un cambio di parola in una riga di testo è più vicino di una linea completamente diversa diff restituisce no-match per entrambi i casi.
Sarei in grado di utilizzare efficacemente un soundex su un 100 o più file di linea o c'è un algoritmo migliore? C'è anche una metrica che fornirebbe una corrispondenza positiva se le linee che erano simili fossero su numeri di linea drasticamente differenti?
Grazie