La mia tesi di master riguarda "Managing Spam Under IPv6". Vorrei utilizzare l'algoritmo di apprendimento automatico sulle informazioni recuperate dalle intestazioni delle e-mail al fine di risolvere gli spam dai messaggi legittimi. Per fare i miei test ho ovviamente bisogno di un enorme set di spam e di email legittime (prosciutti). Purtroppo non sono riuscito a trovare un dataset sufficientemente grande di spam IPv6 e email legittime (prosciutti) sui set di dati Internet. Qualcuno sa di un set di dati di questo tipo nel pubblico dominio?
In alternativa, qualsiasi idea per creare il mio set di dati sarebbe molto apprezzata! Ci sono ricercatori che lavorano in questo dominio che potrei contattare?
Per ora uso fondamentalmente spam di Gmail da alcuni amici di me, posso trovare alcuni spam ipv6 ma la quantità di cui ho bisogno è molto più grande se voglio ottenere risultati sfruttabili dall'apprendimento automatico ...
PS: So che questo non è il miglior tipo di domanda da chiedere su steckexchange, dal momento che porta più a una discussione aperta, ma ho davvero bisogno di aiuto e questo è per il bene della scienza quindi per favore sii indulgente ^^