Abbiamo un elenco di circa 100.000 clienti. Ogni notte, eseguiamo una ricerca batch di questi nomi di clienti contro un elenco di criminali noti / persone sospette. Questo elenco contiene circa 1 milione di voci.
Per migliorare i falsi negativi, stiamo utilizzando la corrispondenza di stringa fuzzy che cattura piccole discrepanze tra i nomi dei clienti e gli elenchi di nomi sospetti.
Il problema è che questa ricerca è incredibilmente lenta (potrebbero volerci giorni per finire).
Quali strategie posso prendere in considerazione per evitare di controllare i clienti ancora e ancora contro alcune voci?
Nota: l'elenco delle persone sospette viene aggiornato ogni settimana con nuove voci.
Possibili soluzioni
- Potrei tenere una tabella che registra quali clienti sono stati controllati rispetto a quali voci. Tuttavia questa è una soluzione terribile. Devo tenere un registro di 100.000 clienti * 1 milione di voci per coprire tutte le possibilità.