Prima di tutto, c'è una distinzione molto importante tra essere in grado di rilevare un attore "Snowden-like" e poter prevenire uno. Per quanto ho visto, Beehive non ha alcuna pretesa di prevenirne uno, ma sembra piuttosto promettere la possibilità di avvisare che un'attività sospetta sta accadendo nella tua rete. Certo, non come buono, ma ancora considerato un "Santo Graal" in alcune comunità di ricerca.
Detto ciò, sono estremamente dubbioso che Beehive sia in grado di soddisfare tali aspettative. L'apprendimento automatico può fare abbastanza bene nell'estrarre modelli complessi da grandi pile di dati con identità affidabili. Ad esempio, la differenza tra le immagini di cani e gatti è estremamente affidabile; possiamo farlo tutti 99 +% del tempo, ma se dovessi dire qual è l'algoritmo esatto per prendere in 100x100 pixel e determinare il cane contro cane, non ho idea di come lo farei. Ma posso fornirti 100.000 di tali immagini e lasciare che i metodi ML indichino una regola che distingue in modo affidabile tra i due in base ai valori di 100x100 pixel. Se faccio le cose per bene, le regole create da ML dovrebbero funzionare anche su nuove immagini di cani e gatti, assumendo non enormi cambiamenti nei nuovi dati (cioè, se ho usato solo laboratori e gatti soriano nei dati di allenamento, allora provo a prendere per identificare un terrier ... buona fortuna). Questa è la forza di ML.
Determinare "comportamenti sospetti" è un problema molto più difficile. Non abbiamo 100.000 di esempi di comportamenti errati confermati e nemmeno 100.000 di esempi di buoni comportamenti confermati! Peggio ancora, quello che era un buon metodo ML che ha funzionato ieri non funziona oggi; a differenza di cani e gatti nelle foto, gli avversari cercano davvero di ingannarti. La maggior parte delle persone che conosco lavorando su ML per la cyber security hanno accettato che l'idea di un rilevamento puramente automatizzato è al di fuori della nostra portata al momento, ma forse possiamo costruire strumenti per automatizzare compiti ripetitivi molto specifici che un analista della sicurezza deve fare ripetutamente, rendendoli così più efficienti.
Detto ciò, gli autori di Beehive sembrano aver saltato quella lezione e affermano di aver risolto questo problema. Sono molto sospettoso nei confronti della performance, soprattutto considerando che i metodi che suggeriscono sono i primi che un ricercatore di ML potrebbe pensare di provare e che sono stati regolarmente rifiutati perché non utili. Ad esempio, suggeriscono di utilizzare PCA per identificare i valori anomali nei registri. Questa e le sue varianti sono state provate centinaia di volte e il risultato è sempre che l'analista della sicurezza interrompe il "rilevamento automatico" perché riceve così tanti falsi positivi che costa modo più tempo di salva.
Naturalmente, in tutti questi metodi, il diavolo è i dettagli ei dettagli di questi tipi di metodi non vengono mai esposti nel lavoro pubblicato ("abbiamo usato PCA per cercare i valori anomali nei log del server" è un estremamente dichiarazione vaga). È sempre possibile che abbiano un modo super intelligente di preelaborare i dati prima di applicare i loro metodi che non sono riusciti a farlo. Ma sarei disposto a scommettere sul mio braccio destro che nessun utente di Beehive sarà in grado di distinguere in modo affidabile tra il comportamento "tipo Snowden" e l'uso del mondo reale non conflittuale di una rete in tempo reale.