Perché un classificatore Bayes viene utilizzato per il filtraggio dello spam?

8

Ho letto di filtro antispam bayesiano e penso di aver capito la teoria, ma io non faccio altro vediamo perché questo approccio è necessario per calcolare la probabilità che un messaggio sia spam, dato che contiene una determinata parola.

Se abbiamo una serie di messaggi già classificati dall'utente come "spam" o "ham" e riceviamo un nuovo messaggio (contenente la parola scelta) che vogliamo classificare, allora sicuramente tutto ciò che dobbiamo fare è dividi il numero di messaggi spam che contengono la parola, per il numero totale di messaggi che contengono la parola ... Perché tutte le equazioni?

    
posta codebox 17.01.2012 - 10:22
fonte

1 risposta

15

Va bene, prima di tutto, non ci sono solo prove positive ma anche prove negative. Alcune parole rendono molto probabile che un messaggio e-mail sia spam, altri lo rendono molto probabile. Altre parole rendono molto probabile che un messaggio sia spam dalla loro assenza , mentre altri hanno l'effetto opposto. Ad esempio, se si ricerca la drosofila per vivere e frequentemente corrispondono ai colleghi su di loro, la presenza di quel termine è quasi come una password, perché nessuna campagna di massa sarà in grado di personalizzare i propri testi secondo le proprie abitudini che - sarebbe distruggere le economie di scala che rendono lo spam vitale in primo luogo.

Inoltre, le prestazioni di un filtro non possono essere misurate con una sola metrica. Rilevare lo spam è molto facile, anzi banale, se si classifica semplicemente tutto come spam - ma poi i falsi positivi (rilevando la posta reale come spam) sono intollerabilmente alti. Rilevare nulla risolve quel problema, ma poi i falsi negativi (classificando i campioni cattivi come buoni) rendono la vita miserabile. Un buon filtro deve raggiungere valori buoni sui conteggi entrambi , il che rende molto più complicato di un rilevatore super-sensibile di qualcosa.

Quindi sin dall'inizio non hai solo una "lista di parolacce", ma almeno quattro liste, e non solo un criterio, ma almeno due. Finora, il filtraggio bayesiano è davvero il metodo più semplice per farlo bene. Se ne trovi uno migliore, ascoltalo.

    
risposta data 17.01.2012 - 10:35
fonte

Leggi altre domande sui tag