Supponendo che stai usando un qualche tipo di apprendimento automatico (e anche se non lo sei), avrai bisogno anche di un corpus di distrazioni (nel settore anti-spam chiamiamo la posta desiderata "ham" perché è più facile per dire che "non spam"), e questo sarà di gran lunga la tua più grande sfida.
Un punto di partenza per attirare lo spam potrebbe essere questa vecchia richiesta di Overflow dello stack per un Set di formazione per il filtro antispam disponibile pubblicamente o questo vecchio overflow dello stack Brainstorm: come creare rapidamente un honeypot per lo spam di massa? Anche se entrambi sono fuori tema per Stack Overflow, potrebbe non essere il caso qui.
Un altro punto di partenza è il SpamAssassin public corpus , anche se a questo punto ha più di 10 anni.
Esistono anche altre tecniche per attirare spam e ham. Cerca semina una trappola di spam e troverai tantissimi consigli dagli esperti anti-spam e < a href="https://en.wikipedia.org/wiki/Email_service_provider_%28marketing%29"> provider di servizi di posta elettronica .
In generale, è molto impegnativo raccogliere un buon corpus che ti aiuterà a prevedere come filtrare il nuovo spam. È significativamente più difficile raccogliere campioni appropriati di phishing, frodi a pagamento anticipato e altri spam mirati. Ho già detto che la raccolta di prosciutto non sfuso sarà anche una sfida, ma se stai cercando di calibrare per catturare il phishing, dovrai assicurarti che il tuo ham corpus contenga molti messaggi legittimi di non marketing relativi alla finanza e manutenzione dell'account.
La cosa migliore da fare è collaborare con qualcuno del settore che ha già dati validi.
Questo potrebbe includere comunità di software libero come quella di SpamAssassin. Se puoi creare un'istanza del tuo lavoro come una combinazione logica di espressioni regolari (regole SpamAssassin), puoi ottenere il sistema QA di SpamAssassin per eseguire le tue combinazioni contro i suoi stessi corpora. Ciò richiederà la licenza del tuo lavoro come Apache License v2 in modo che possa essere usato da SpamAssassin stesso.
Il gruppo di lavoro anti-phishing (APWG) ha un sacco di campioni di phishing, anche se potresti doverli pagare (a meno che tu non stai lavorando su un documento per il loro eCrime Symposium ?)
Project Honeypot ha anche una buona raccolta di spam (sebbene non abbiano ham). Potresti essere in grado di lavorare con loro.