Per capire questo, dobbiamo capire come i crawler trovano l'e-mail. Mentre si allontana dai tecnici, l'idea di base è questa (gli algoritmi odierni sono, ovviamente, più intelligenti di così):
- Trova
@
nella pagina.
- C'è un punto entro 255 caratteri dopo
@
?
- Afferra ciò che c'è dietro il
@
fino a raggiungere uno spazio o l'inizio della linea.
- Afferra
.
e cosa c'è dietro fino a raggiungere @
.
- Ottieni ciò che è dopo
.
fino a raggiungere la fine della linea o uno spazio.
Ora, una semplice contromisura sarebbe sostituire il @
con at
e il .
con dot
. La contro-contromisura più intuitiva sarebbe quella di insegnare al crawler che at
è in realtà @
. Bene, non è così semplice. Prendi il seguente testo:
We climbed into the attic and found a dotted piece of wood. Please email us: adnan at gmail dot com.
Ora eseguiamo il nostro nuovo crawler su di esso. Prima troverà il at
in attic
, quindi troverà il dot
in dotted
. L'email risultante sarebbe [email protected]
, quindi troverà la seconda email [email protected]
. Poi gli spammer hanno iniziato a insegnare ai crawler a trovare determinati domini, ignorando gli spazi, prendendo in considerazione gli spazi, considerando alcuni nomi di dominio, ecc.
Poi abbiamo iniziato a usare le immagini, gli spammer hanno usato l'OCR. Abbiamo iniziato a utilizzare trucchi JavaScript, inserendo commenti, URL-encide, ecc. E sempre gli spammer hanno trovato un modo per aggirarli. È una gara.
Detto questo, la maggior parte delle tecniche di base di solito danno buoni risultati (a quanto pare, in qualche posto nel mondo, quel link è NSFW . Personalmente, non sono d'accordo), e più offuscato, i risultati migliori si ottengono.
Quindi,perrisponderedirettamenteallatuadomanda:l'utilizzodi"punto" e "a" negli indirizzi email in testo pubblico è ancora utile? Sì, penso di sì, almeno in una certa misura. Ma questa soluzione è stata abbastanza lunga da consentirci di supporre che alcuni crawler abbiano già trovato un modo per aggirarlo.
Il mio consiglio? Utilizza qualche munger avanzato avanzato o usa semplicemente le immagini.