Ok, ho trovato la risposta. Le aziende AV utilizzano tecniche di clustering / classificazione nei loro strumenti di analisi propiziaria. Questi sono alcuni esempi:
Kaspersky utilizza Astraea [1]: un sistema di analisi del malware basato sull'apprendimento automatico. Astraea analizza automaticamente le notifiche da computer protetti e aiuta a scoprire minacce precedentemente sconosciute. Utilizzando i metadati delle minacce (come età, origine, nome file, percorso file e altro) il sistema è in grado di rilevare completamente le minacce senza informazioni sul contenuto del file (solo le caratteristiche statiche?).
Comodo utilizza Valkyrie [2]: è una piattaforma di analisi dei file basata su cloud che fornisce analisi di esperti statici, dinamici e persino umani per i file inviati e sconosciuti inviati. Valkyrie elabora oltre 200 milioni di richieste di file sconosciute ogni giorno. Alcune delle tecniche di Machine Learning utilizzate da Valkyrie comprendono macchine di supporto vettoriale, bayes naive, alberi decisionali e classificatori casuali delle foreste. Inoltre, Valkyrie utilizzerà analisi discriminante lineare, discese con gradiente stocastico, modelli markov nascosti e reti neurali, solo per citarne alcuni.
Avast utilizza Medusa [3]: un sistema di classificazione basato su GPU. Ogni nodo Medusa utilizza due o quattro GPU Nvidia. Ogni campione è rappresentato da un vettore di funzionalità a dimensione costante composto da circa 100 attributi. Tenendo conto della natura degli attributi, sono finiti con diversi operatori di distanza e uno schema di ponderazione che eguaglia l'importanza degli attributi. Usano un classificatore kNN. I loro sistemi interni gestiscono circa 250.000 nuovi file PE ogni giorno. Hanno affermato di utilizzare il collegamento completo, questo significa che il loro algoritmo per trovare i cluster potrebbe essere l'algoritmo gerarchico agglomerato.
Avira's Cloud Protection [4]: Avira utilizza l'analisi dei big data per determinare automaticamente se un campione appena scoperto appartiene a una famiglia nota di malware. In un dato momento, stanno elaborando 1.3 milioni di aggiornamenti malware sui loro server in tutto il mondo. In un solo giorno, i loro honeypot di Avira Protection Lab riceveranno oltre 130.000 nuovi campioni di malware da analizzare.
Microsoft Azure Machine Learning [5]: usano l'apprendimento automatico probabilistico per trovare modelli nei dati che potrebbero non essere stati rilevati dalla tecnica deterministica più sprezzante. L'algoritmo funziona senza intervento umano e produce una mappa di sorta. La mappa mostra cluster popolati, cluster meno popolati e forse alcuni valori anomali o cluster molto scarsamente popolati. A questo punto, viene chiamato un esperto umano per esaminare i cluster e decidere se un cluster è un processo normale o un malware.
BitDefender [6]: utilizza diverse tecniche di machine learning (Perceptrons, Neural Networks, Centroids, Binary Decision Tree, Deep Learning, ecc.) per diverse attività: filtraggio di URL, identificazione di file dannosi e classificazione delle email.
Symantec utilizza Cynic [7]
Riferimenti (Non ho abbastanza reputazione per metterli come link):
[1] usa.kaspersky.com/about-us/press-center/press-releases/2016/Kaspersky_Lab_Number_of_the_Year_2016_323000_Pieces_of_Malware_Detected_Daily
[2] enterprise.comodo.com/valkyrie /
[3] avast.com/technology
[4] blog.avira.com/virus-hunters-catch-bad-guys-part-2 /
[5] microsoft.com/itshowcase/Article/Content/618/Improving-network-security-using-big-data-and-machine-learning
[6] businessinsights.bitdefender.com/machine-learning-apt-detection
[7] symantec.com/connect/blogs/myth-busting-next-generation-threat-protection