Personalmente, penso che tu stia meglio affidando alcuni paesi e alcune lingue che sei sicuro di non volere e poi penalizzali in SpamAssassin usando RelayCountry , TextCat , ecc.
Ho sperimentato con i dati RIR nelle regole di SpamAssassin in passato. La mia conclusione è stata che non c'era niente di molto utile anche come funzionalità all'interno di un ambiente di apprendimento automatico.
I criteri sono un po 'obsoleti (non sto aggiornando i CIDR che i RIR scambiano e questo è solo IPv4), ma dovrebbe essere approssimativamente rappresentativo:
S/O Flow% RIR
0.282 50.052 ARIN
0.785 26.186 RIPE
0.845 16.274 APNIC
0.129 9.983 Legacy Class A
0.915 1.348 LACNIC
0.763 0.744 AFRINIC
("S / O" è una precisione relativa utilizzando un campione bilanciato di spam e posta legittima. molto approssimativamente si correla con le probabilità di spam. "Flusso%" è la percentuale di tutto il flusso di traffico che visto in questo periodo di esempio (e include alcune sovrapposizioni). Più basso è il flusso%, meno ci si deve fidare del S / O, cioè non bloccare l'America Latina.
Questo riflette ovviamente il mio campionamento, che è un sottogruppo molto piccolo dei dati che ho a disposizione. Come puoi vedere, ho molto più dati dal Nord America e dall'Europa di quanto non lo sia io in America Latina o in Africa. Questo non riflette necessariamente la vita reale (o persino il mio set di dati personali, ho casualmente sottocampionato!).
Se conosci i tuoi canali di comunicazione in modo molto intimo, puoi prendere in considerazione qualcosa di simile, ma è troppo ampio per una distribuzione sicura .
Poiché i miei dati sono così obsoleti, non ho intenzione di scaricarli tutti qui, ma come esempio, ecco la mia definizione dello spazio Legacy A (il ^
dovrebbe rimuovere il problema di sovrapposizione sopra riportato):
header __RCVD_VIA_LEGACY X-Spam-Relays-External =~ /^\[ ip=(?:[689]|2(?:[025689]|1[45]?)|1[12356789]|3[023458]?|5[1234567]|4[0478]?)\b/
Se ricordo correttamente, sono andato al sito web di ciascuno dei cinque registri Internet regionali e ho trovato il loro annuncio blocchi. Ho generato ogni regex di ogni RIR usando Regexp :: Assemble (che non riesce a creare gamme di classi di caratteri). Utilizza una speciale pseudo-header SpamAssassin per una definizione più pulita.
Ci sono altri aspetti molto utili di whois per il rilevamento dello spam, ma c'è un grosso ostacolo da superare: è troppi dati fare qualsiasi cosa con una distribuzione locale. Avete bisogno di servizi cloud importanti che riempiano i database in tempo reale per catturare cose come la grandinata (nota a margine: il mio team ha fatto questo .).
Un altro servizio che si basa su whois data è la lista dei vecchi tempi del giorno , che elenca semplicemente qualsiasi dominio che sia 0- 5 giorni di età supponendo che valga la pena penalizzare l'invio di e-mail da (o il collegamento a) tali domini.