Ricerca di indirizzi email duplicati. Quanto dovrei normalizzarli?

2

Ho una grande lista di indirizzi email e voglio scoprire quali di questi sono duplicati.

Come definire "duplicato" è esattamente quello che sto postando qui.

So per esperienza che con Gmail, è possibile rimuovere tutti i periodi e la posta andrà alla stessa destinazione. Tuttavia, da quello che ho capito questo non è uniformemente vero, e alcuni provider di posta elettronica considerano periodi parte dell'identificatore univoco.

Qual è il tuo consiglio su come gestirlo? Voglio sbagliare sul lato della cautela (sicuramente non segnare un indirizzo email come duplicato se non lo è). Ma non voglio nemmeno essere trattenuto da un caso minuscolo.

Sto usando Ruby, FWIW, ma potrebbe anche usare comodamente i programmi di utilità Javascript, Shell o Python. Conosco già una gemma Ruby per normalizzare in modo intelligente gli indirizzi e-mail (diversi host sono trattati in modo diverso), ma non voglio contare su questo 100% per fare il lavoro per me. Quindi sto cercando di capire, in termini astratti, cosa io voglio fare prima di preoccuparmi dell'implementazione.

    
posta max pleaner 28.12.2016 - 02:36
fonte

1 risposta

6

Sulla base di ulteriori informazioni nei commenti ti consiglierei di non tentare di normalizzare affatto tranne per i domini in cui sai che puoi farlo in sicurezza.

Se gmail documenta che violano / estendono gli standard in qualche modo ignorando gli stop completi o consentendo "l'indirizzamento positivo", li copra direttamente ma non li applicano su base globale.

Potresti essere in grado di ottenere altri suggerimenti come individuare i domini che utilizzano servizi che puoi normalizzare tramite l'IP nel record MX per il dominio.

Potresti essere in grado di ottenere informazioni su un dominio specifico tramite l'analisi statistica del tuo set di dati.

Aggiungi altri caso per caso in cui puoi dimostrare chiaramente che si applica un'ottimizzazione specifica.

Nota comunque che devi fare attenzione a come usi i dati "disinfettati" dato che io per primo elenchiamo gli indirizzi più e trattiamo la posta che non va nel posto giusto come spam.

    
risposta data 28.12.2016 - 03:10
fonte

Leggi altre domande sui tag