Perché i dati di allenamento per il rilevamento di intrusioni basati su anomalie senza supervisione dovrebbero essere normali o meno rumorosi

0

Recentemente ho letto un articolo in cui si affermava che "Gli algoritmi di rilevamento delle anomalie tradizionali richiedono una serie di dati puramente normali da cui formano il modello" [1]. Ma come in K-means, o altri algoritmi di clustering non supervisionati, cosa significa? Come funzionano se c'è un solo cluster? Il loro punto è che possono raggruppare diverse classi di dati senza etichetta.

Un altro articolo dice che ci sono due presupposti nelle tecniche non supervisionate: 1. il traffico dovrebbe essere molto più normale del traffico di attacco e 2. il traffico di attacco dovrebbe essere diverso dal traffico normale [2]. Perché? K-means può separare due serie dello stesso numero di elementi.

Riferimenti:

[1] Pagina 2 di " Rilevamento delle intrusioni con dati non etichettati utilizzando il clustering ", Leonid Portnoey, Eleazar Eskin, Sal Stolfo, DMSA 2001.

[2] Sezione 3.3 di Jose F. Nieves, " Clustering di dati per rilevamento anomalie in rete Intrusion Detection ", Research Alliance in Math and Science, 2009.

    
posta Yasser 18.11.2012 - 12:55
fonte

1 risposta

2

Questa è una domanda sconcertante. La spiegazione è fornita proprio lì nel documento, in alcuni casi proprio vicino alle quotazioni che hai fornito. Forse vale la pena di rileggere i documenti una seconda volta, perché sembra che tu abbia perso alcuni dettagli sul primo passaggio.

Sulla prima citazione ("algoritmi di rilevamento anomalie tradizionali richiedono ..."):

  • Bene, questo è il modo in cui funzionano gli algoritmi tradizionali di rilevamento delle anomalie. Questi algoritmi funzionano iniziando con un set di allenamento del traffico normale, quindi utilizzano il set di allenamento per creare un modello del traffico normale. Affinché funzioni correttamente, è necessaria una grande raccolta di traffico normale. Come afferma la carta nella frase successiva, "se i dati contengono alcune intrusioni sepolte nei dati di addestramento, l'algoritmo potrebbe non rilevare le istanze future di questi attacchi perché supporterà che siano normali". Se desideri maggiori dettagli su come funzionano questi algoritmi, la soluzione migliore potrebbe essere quella di leggere alcuni documenti che forniscono esempi di algoritmi di questo modulo.

Sulla seconda citazione (ipotesi nelle tecniche non supervisionate):

  • Penso sia ovvio il motivo per cui dobbiamo assumere che il traffico di attacco sia diverso dal normale traffico. Se avessero lo stesso aspetto, non avremmo modo di rilevare il traffico degli attacchi.

  • Per quanto riguarda il motivo per cui la tecnica senza supervisione di Nieves richiede che il traffico legittimo sia molto più comune del traffico di attacco: questo è spiegato nella Sezione 4.4 del documento. È perché la carta assume che i piccoli cluster rappresentano il traffico di attacco. Senza questa premessa, non è chiaro come potremmo dire quale del traffico nel nostro set di allenamento era normale e quale era il traffico di attacco, senza etichette. Ricorda, la carta presuppone che abbiamo un set di allenamento con molto traffico, che contiene un misto di traffico normale e di attacco e che non abbiamo etichette per dirci quale dei dati nel set di allenamento è normale e quali è dannoso.

    Come spiega il documento, "Basandoci sul presupposto che una rete reale contenga molte più connessioni normali degli attacchi, [consideriamo] i cluster più piccoli per contenere gli attacchi e i cluster più grandi [...] per contenere connessioni normali o buone "(leggeri aggiustamenti alla grammatica per renderlo più chiaro). In altre parole, è proprio così che funziona la proposta di Nieves. Ovviamente non c'è nulla che dice che questo sia l'unico modo possibile per fare il rilevamento delle intrusioni - ma fornisce alcune spiegazioni sul perché Nieves abbia scelto di provare il particolare schema che ha fatto.

La mia risposta precedente:

È difficile sapere senza contesto (dovresti aver fornito un link o una citazione alla carta specifica a cui ti riferisci). Senza quello, possiamo solo indovinare.

Potrebbero riferirsi alla differenza tra apprendimento supervisionato e apprendimento non supervisionato . Nell'apprendimento supervisionato, supponiamo di disporre di un ampio set di formazione contenente molti pacchetti e ogni pacchetto è etichettato come "dannoso" o "legittimo".

Nell'apprendimento non supervisionato, supponiamo di avere un grande set di dati contenente molti pacchetti, ma nessuno di essi è etichettato. Se non hai etichette per i dati di allenamento, tutto ciò che puoi fare è raggruppare i dati in uno o più cluster.

Infine, c'è un'altra situazione che è comune per gli IDS basati sull'anomalia: ci viene dato un ampio set di addestramento contenente molti pacchetti, e si presume che tutto in questo set di addestramento sia legittimo (non dannoso) e rappresentativo del normale traffico non dannoso. Quindi, si può provare a costruire un modello di come appare il traffico normale; durante il funzionamento, se vedi un pacchetto che si discosta dal modello, allora potrebbe essere un attacco. Questo è il concetto base di rilevamento delle anomalie. Esistono molti modi per costruire un modello di traffico normale, ma una possibilità consiste nell'utilizzare il clustering (ad esempio, K-means) per raggruppare il traffico normale in uno o più cluster; durante il funzionamento, si presume che qualsiasi pacchetto in o vicino a uno di questi cluster sia un traffico normale e non dannoso. Se questo è ciò che sta accadendo, puoi vedere che funziona anche se esiste un solo cluster.

Se dovessi fare una supposizione, la mia ipotesi sarebbe su quest'ultima spiegazione. Ma senza una citazione su carta, è difficile dirlo con certezza.

P.S. Indipendentemente dalla tecnica utilizzata, puoi sperare di capire perché è importante che le anomalie (ad es. Il traffico malevolo) differiscano dal normale traffico. Se il traffico malevolo sembrava lo stesso del traffico normale, non avresti alcuna speranza di rilevarlo. E, in effetti, l'intera definizione di anomalia è "qualcosa di diverso dal normale", quindi per rilevare l'anomalia è utile per rilevare gli attacchi, dobbiamo presumere che il traffico dannoso sia anomalo (diverso dal normale traffico).

    
risposta data 18.11.2012 - 20:10
fonte

Leggi altre domande sui tag