Ho bisogno di sviluppare, o almeno di concettualizzare un modulo che faccia una efficiente deduplica dei dati. Diciamo che abbiamo già milioni di record di dati. Inserimento di altri record da 100 mn, assicurandosi che non ci siano record duplicati nel set di dati risultante, è ciò che il modulo deve fare, al livello più alto. Ora questo può significare confrontare su un campo (s) che decide se i record sono duplicati o meno. Ma questo approccio, preso in serie, è davvero ingenuo, quando parliamo di milioni di dischi.
Che cosa pensi possa essere un approccio praticabile? Hashing? usando algoritmi di tipo divide e conquista per sfruttare il parallelismo? Ho questi nella mia testa, ma diventa veramente vertiginoso a tale scala.
Inoltre, si prega di postare qualsiasi suggerimento sulle risorse sul Web che posso utilizzare - ho potuto trovare solo dibattiti e venditori che dicono cose sulle "funzioni di deduplicazione dei dati supremi" del loro db.