Ho materiale come immagini, PDF, DOC e DOCX con molti elementi duplicati ma in formato diverso. Potrei avere un documento in PDF e poi lo ho anche in DOC e DOCX. Voglio in qualche modo classificare tutto il materiale in base al contenuto del materiale. Se PDF e DOC hanno lo stesso contenuto, dovrebbero essere classificati nella stessa cartella. La mia prima idea è stata ssdeep e la ricerca di PDF di Adope per i file PDF, ma soluzioni lente.
Does there exist some method that would categorize a massive directory with duplicates according to their contents?
Please, note that the duplicateness is a statistical measure in a way: if enough similarity, then categorize to the same folder. How can I do this kind of categorization in Mac?
Some ready software for this?
Per favore, aggiungi etichette come categorization
per abbinare meglio questo thread. Alcune etichette migliori?