Lavoro per un'organizzazione che ha molti database contenenti informazioni sulla persona. La qualità dei dati è scarsa. Un caso era un cognome che ho trovato in questo modo (questo è lo scenario peggiore):
Contrassegna "Non so il suo cognome, ma suonava come Lion 'RAR', Ha ha"
C'è una data di nascita di: 01/09/1499
Questo è uno scenario peggiore. La maggior parte dei problemi di qualità dei dati è dovuta alla pressione di un tasto sbagliato sulla tastiera, ad es. Snith invece di Smith (n è accanto a me sulla tastiera).
Sto cercando algoritmi che possano aiutarmi con una sorta di "corrispondenza sfocata" in queste circostanze. I nostri requisiti coinvolgono diversi milioni di record al giorno. Ho cercato "corrispondenza dati" e ho scoperto i seguenti algoritmi:
SQL SOUNDEX
SQL METAPHONE
Levenshtein Distance
Esiste anche una possibile corrispondenza per le date di nascita? Una possibile corrispondenza per un cognome era che la distanza di Levenstein era dell'80%.
Quindi ho due domande:
-
Quali algoritmi sono disponibili eccetto i tre sopra specificati?
-
Quali approcci vengono utilizzati per abbinare possibili indirizzi