Ho oltre 10000 immagini che circa 2000 sono duplicati in altri formati (come in JPEG, PNG, GIF). Entrambi questi numeri aumentano ogni giorno. Devo cancellare quei duplicati e per quello devo sapere come trovarli prima.
Il mio primo pensiero è stato controllare i pixel di immagini e trovare altre immagini con gli stessi pixel colorati nelle stesse coordinate. Ma questa opzione non sempre funziona. Diciamo che cerco un duplicato. Per quanto riguarda l'oggetto ricercabile, scelgo un file PNG a 8 bit. Troverai tutti i duplicati di quell'immagine, ma solo il PNG a 8 bit, a volte GIF a 8 bit e raramente JPEG (a causa delle immagini algoritmiche, suppongo?).
Il mio secondo pensiero è stato quello di duplicare tutte quelle immagini e ricolorarle in una rigida palette a due colori (diciamo nero e bianco) e fare la stessa scansione di cui sopra. Ancora una volta l'immagine JPEG non è simile al 100% al formato PNG o GIF (lo stesso motivo di cui sopra?).
Il terzo pensiero era di ridurre la percentuale su quanto l'immagine deve essere familiare e aumentare di quanto i colori possono variare, con conseguente rimozione indesiderata delle immagini. ..
Qualche idea?