Va bene, prima di tutto, non ci sono solo prove positive ma anche prove negative. Alcune parole rendono molto probabile che un messaggio e-mail sia spam, altri lo rendono molto probabile. Altre parole rendono molto probabile che un messaggio sia spam dalla loro assenza , mentre altri hanno l'effetto opposto. Ad esempio, se si ricerca la drosofila per vivere e frequentemente corrispondono ai colleghi su di loro, la presenza di quel termine è quasi come una password, perché nessuna campagna di massa sarà in grado di personalizzare i propri testi secondo le proprie abitudini che - sarebbe distruggere le economie di scala che rendono lo spam vitale in primo luogo.
Inoltre, le prestazioni di un filtro non possono essere misurate con una sola metrica. Rilevare lo spam è molto facile, anzi banale, se si classifica semplicemente tutto come spam - ma poi i falsi positivi (rilevando la posta reale come spam) sono intollerabilmente alti. Rilevare nulla risolve quel problema, ma poi i falsi negativi (classificando i campioni cattivi come buoni) rendono la vita miserabile. Un buon filtro deve raggiungere valori buoni sui conteggi entrambi , il che rende molto più complicato di un rilevatore super-sensibile di qualcosa.
Quindi sin dall'inizio non hai solo una "lista di parolacce", ma almeno quattro liste, e non solo un criterio, ma almeno due. Finora, il filtraggio bayesiano è davvero il metodo più semplice per farlo bene. Se ne trovi uno migliore, ascoltalo.