In che modo le aziende antivirus possono analizzare la grande quantità di campioni che ricevono?

3

Le aziende antivirus raccolgono campioni dai loro prodotti o gli utenti possono inviare direttamente i campioni tramite moduli sui loro siti web. Il numero di campioni raccolti è molto grande. Come può un gruppo di analisti analizzare un volume così grande di malware?

Ho letto diversi articoli scritti da ricercatori che descrivono tecniche diverse. Una tecnica consiste nel raggruppare insieme malware simili e analizzare solo un 'rappresentante' per ciascun cluster.

Quali sono i metodi realmente utilizzati dalle aziende AV?

    
posta RobotMan 08.02.2017 - 15:37
fonte

2 risposte

1

Ok, ho trovato la risposta. Le aziende AV utilizzano tecniche di clustering / classificazione nei loro strumenti di analisi propiziaria. Questi sono alcuni esempi:

Kaspersky utilizza Astraea [1]: un sistema di analisi del malware basato sull'apprendimento automatico. Astraea analizza automaticamente le notifiche da computer protetti e aiuta a scoprire minacce precedentemente sconosciute. Utilizzando i metadati delle minacce (come età, origine, nome file, percorso file e altro) il sistema è in grado di rilevare completamente le minacce senza informazioni sul contenuto del file (solo le caratteristiche statiche?).

Comodo utilizza Valkyrie [2]: è una piattaforma di analisi dei file basata su cloud che fornisce analisi di esperti statici, dinamici e persino umani per i file inviati e sconosciuti inviati. Valkyrie elabora oltre 200 milioni di richieste di file sconosciute ogni giorno. Alcune delle tecniche di Machine Learning utilizzate da Valkyrie comprendono macchine di supporto vettoriale, bayes naive, alberi decisionali e classificatori casuali delle foreste. Inoltre, Valkyrie utilizzerà analisi discriminante lineare, discese con gradiente stocastico, modelli markov nascosti e reti neurali, solo per citarne alcuni.

Avast utilizza Medusa [3]: un sistema di classificazione basato su GPU. Ogni nodo Medusa utilizza due o quattro GPU Nvidia. Ogni campione è rappresentato da un vettore di funzionalità a dimensione costante composto da circa 100 attributi. Tenendo conto della natura degli attributi, sono finiti con diversi operatori di distanza e uno schema di ponderazione che eguaglia l'importanza degli attributi. Usano un classificatore kNN. I loro sistemi interni gestiscono circa 250.000 nuovi file PE ogni giorno. Hanno affermato di utilizzare il collegamento completo, questo significa che il loro algoritmo per trovare i cluster potrebbe essere l'algoritmo gerarchico agglomerato.

Avira's Cloud Protection [4]: Avira utilizza l'analisi dei big data per determinare automaticamente se un campione appena scoperto appartiene a una famiglia nota di malware. In un dato momento, stanno elaborando 1.3 milioni di aggiornamenti malware sui loro server in tutto il mondo. In un solo giorno, i loro honeypot di Avira Protection Lab riceveranno oltre 130.000 nuovi campioni di malware da analizzare.

Microsoft Azure Machine Learning [5]: usano l'apprendimento automatico probabilistico per trovare modelli nei dati che potrebbero non essere stati rilevati dalla tecnica deterministica più sprezzante. L'algoritmo funziona senza intervento umano e produce una mappa di sorta. La mappa mostra cluster popolati, cluster meno popolati e forse alcuni valori anomali o cluster molto scarsamente popolati. A questo punto, viene chiamato un esperto umano per esaminare i cluster e decidere se un cluster è un processo normale o un malware.

BitDefender [6]: utilizza diverse tecniche di machine learning (Perceptrons, Neural Networks, Centroids, Binary Decision Tree, Deep Learning, ecc.) per diverse attività: filtraggio di URL, identificazione di file dannosi e classificazione delle email.

Symantec utilizza Cynic [7]

Riferimenti (Non ho abbastanza reputazione per metterli come link):

[1] usa.kaspersky.com/about-us/press-center/press-releases/2016/Kaspersky_Lab_Number_of_the_Year_2016_323000_Pieces_of_Malware_Detected_Daily

[2] enterprise.comodo.com/valkyrie /

[3] avast.com/technology

[4] blog.avira.com/virus-hunters-catch-bad-guys-part-2 /

[5] microsoft.com/itshowcase/Article/Content/618/Improving-network-security-using-big-data-and-machine-learning

[6] businessinsights.bitdefender.com/machine-learning-apt-detection

[7] symantec.com/connect/blogs/myth-busting-next-generation-threat-protection

    
risposta data 09.02.2017 - 17:37
fonte
0

How can a group of analysts analyze such a big volume of malwares?

La risposta breve è che non possono e non esiste un proiettile d'argento. Ad esempio il primo campione di Stuxnet è stato raccolto intorno a gennaio 2010 , mentre Stuxnet non è stato scoperto fino a giugno 2010 .

Le aziende AV sono davvero brave nel raccogliere campioni, ma decidere quali analizzare è un problema che non è ancora stato completamente risolto. Quindi una domanda rilevante è come scegliere quali campioni analizzare. È qui che entrano in gioco tutti i diversi metodi di classificazione dei campioni come interessanti per l'analisi. Molti di questi sono elencati nella risposta sopra.

    
risposta data 05.12.2017 - 14:58
fonte

Leggi altre domande sui tag