Commento
Ciao a tutti, grazie per essere una bella piattaforma per esprimere i dubbi / le opinioni di tutti.
Dichiarazione del problema
Voglio rilevare l'attività di spamming delle botnet
Informazioni di base sulla domanda
Ho letto, in generale, queste tre tecniche per rilevare le attività di spamming delle botnet.
1.Machine Learning Approach
2. Approccio basato sulla rete (tipo di approccio basato su regole, se Valore (metrica) supera la soglia, vengono registrati i dettagli dell'attività)
3. Rilevamento livello avanzato / corrispondenza basata sul contenuto
Passaggi effettuati
Ho letto questo articolo In che modo le botnet consegnano lo spam? , che dice "le botnet funzionano come server di posta e inviano mail al server di posta del destinatario usando SMTP".
In un documento sul rilevamento delle botnet (Botminer), ho trovato una tecnica per il rilevamento dello spam usando snort.
Botminer dice "che rileva quantità anomale di query DNS per i record MX dallo stesso IP di origine e la quantità di connessioni SMTP avviate dalla stessa fonte ai server di posta all'esterno della rete monitorata. È improbabile che i normali client fungano da server SMTP e pertanto dovrebbero fare affidamento sul server SMTP interno per l'invio di e-mail. L'utilizzo di molti server SMTP esterni distinti per molte volte dallo stesso host interno è un'indicazione di possibili attività dannose. "
Quindi, sto usando il 2o approccio tra i 3 approcci sopra menzionati.
Dubbio (punto principale della mia query), bisogno di suggerimenti
Questo è un buon modo intuitivo per rilevare l'attività di spam botnet.
Tuttavia, penso che se i bot usano gmail, yahoo-mail per lo spamming (piuttosto che i bot che fungono da server SMTP), ritengo che questa tecnica non sarà efficace, come gmail / yahoo-mail server farà MX-query / aprendo le connessioni SMTP e non i bot (host interni che eseguono bot).
Per favore correggimi se sbaglio.
Infine ,
Per favore suggerisci alcune idee per coprire lo scenario sopra, usando un approccio simile (simile a questo)
Non intendo l'approccio basato sul contenuto (non valido per reti ad alta velocità, dati crittografati), approccio di apprendimento automatico (poiché consuma e richiede tempo e risorse molte conoscenze specifiche, esperienza).