Analizza un gruppo di file e li categorizza in base al loro contenuto, duplicati di contenuti possibili con formati diversi

0

Ho materiale come immagini, PDF, DOC e DOCX con molti elementi duplicati ma in formato diverso. Potrei avere un documento in PDF e poi lo ho anche in DOC e DOCX. Voglio in qualche modo classificare tutto il materiale in base al contenuto del materiale. Se PDF e DOC hanno lo stesso contenuto, dovrebbero essere classificati nella stessa cartella. La mia prima idea è stata ssdeep e la ricerca di PDF di Adope per i file PDF, ma soluzioni lente.

  • Does there exist some method that would categorize a massive directory with duplicates according to their contents?

  • Please, note that the duplicateness is a statistical measure in a way: if enough similarity, then categorize to the same folder. How can I do this kind of categorization in Mac?

  • Some ready software for this?

Per favore, aggiungi etichette come categorization per abbinare meglio questo thread. Alcune etichette migliori?

    
posta hhh 26.09.2012 - 07:14
fonte

0 risposte

Leggi altre domande sui tag