Il miglior approccio per la somiglianza dei nomi

1

Come parte della convalida, eseguiamo il controllo della similarità del nome e consentiamo solo se viene raggiunta la soglia. Ho ricevuto aiuto da StackOverflow riguardante l'implementazione e infine implementato l'algoritmo JaroWinkler . Recentemente abbiamo osservato che non è affidabile per i nomi lunghi e alcuni nomi falsi superano anche la soglia.

So che l'algoritmo è per misurare la distanza di modifica tra due sequenze. C'è un modo migliore per risolvere questo problema?

Semplicemente curioso di sapere come fanno le istituzioni finanziarie a convalidare questo nome.

[EDIT]:

Ho ottenuto risultati migliori con questo approccio.

  1. dividere il nome per ottenere FN, MD, LN.
  2. usa l'algoritmo Levenshtein per calcolare la corrispondenza%. (Implementato l'algoritmo per soddisfare i requisiti).
  3. calcola la% del nome piccolo e restituisci la media della corrispondenza percentuale.

Questa implementazione dell'algoritmo ha rimosso in modo significativo gli errori che avevo usato con Jaro-Winkler.

    
posta Vamsidhar 27.10.2017 - 11:46
fonte

1 risposta

3

Non posso parlare per tutte le istituzioni finanziarie, ma quando lavoravo in quell'arena, mantenevamo un elenco di nomi e cognomi insieme alla loro origine. Durante l'esecuzione di un factory di dati, i nomi vengono confrontati con questo file e quelli non riconosciuti vengono inviati a un file di rilascio per ulteriori analisi.

Le agenzie di credito in particolare mantengono un elenco di persone e chiavi di casa quindi se è noto che dicono che John Doe vive a un indirizzo e arriva un disco che dice Jon Doe per lo stesso indirizzo, questo è considerato un incontro. N.B. ci sono ovviamente casi limite in cui padre e figlio hanno lo stesso nome che richiederebbe ulteriori dati da separare.

A parte questo, ci sono (come hai già visto) vari algoritmi di corrispondenza fuzzy come Levenshtein che possono assistere ulteriormente.

    
risposta data 27.10.2017 - 11:54
fonte

Leggi altre domande sui tag