Ho una grande lista di indirizzi email e voglio scoprire quali di questi sono duplicati.
Come definire "duplicato" è esattamente quello che sto postando qui.
So per esperienza che con Gmail, è possibile rimuovere tutti i periodi e la posta andrà alla stessa destinazione. Tuttavia, da quello che ho capito questo non è uniformemente vero, e alcuni provider di posta elettronica considerano periodi parte dell'identificatore univoco.
Qual è il tuo consiglio su come gestirlo? Voglio sbagliare sul lato della cautela (sicuramente non segnare un indirizzo email come duplicato se non lo è). Ma non voglio nemmeno essere trattenuto da un caso minuscolo.
Sto usando Ruby, FWIW, ma potrebbe anche usare comodamente i programmi di utilità Javascript, Shell o Python. Conosco già una gemma Ruby per normalizzare in modo intelligente gli indirizzi e-mail (diversi host sono trattati in modo diverso), ma non voglio contare su questo 100% per fare il lavoro per me. Quindi sto cercando di capire, in termini astratti, cosa io voglio fare prima di preoccuparmi dell'implementazione.