Questa è una domanda sconcertante. La spiegazione è fornita proprio lì nel documento, in alcuni casi proprio vicino alle quotazioni che hai fornito. Forse vale la pena di rileggere i documenti una seconda volta, perché sembra che tu abbia perso alcuni dettagli sul primo passaggio.
Sulla prima citazione ("algoritmi di rilevamento anomalie tradizionali richiedono ..."):
- Bene, questo è il modo in cui funzionano gli algoritmi tradizionali di rilevamento delle anomalie. Questi algoritmi funzionano iniziando con un set di allenamento del traffico normale, quindi utilizzano il set di allenamento per creare un modello del traffico normale. Affinché funzioni correttamente, è necessaria una grande raccolta di traffico normale. Come afferma la carta nella frase successiva, "se i dati contengono alcune intrusioni sepolte nei dati di addestramento, l'algoritmo potrebbe non rilevare le istanze future di questi attacchi perché supporterà che siano normali". Se desideri maggiori dettagli su come funzionano questi algoritmi, la soluzione migliore potrebbe essere quella di leggere alcuni documenti che forniscono esempi di algoritmi di questo modulo.
Sulla seconda citazione (ipotesi nelle tecniche non supervisionate):
-
Penso sia ovvio il motivo per cui dobbiamo assumere che il traffico di attacco sia diverso dal normale traffico. Se avessero lo stesso aspetto, non avremmo modo di rilevare il traffico degli attacchi.
-
Per quanto riguarda il motivo per cui la tecnica senza supervisione di Nieves richiede che il traffico legittimo sia molto più comune del traffico di attacco: questo è spiegato nella Sezione 4.4 del documento. È perché la carta assume che i piccoli cluster rappresentano il traffico di attacco. Senza questa premessa, non è chiaro come potremmo dire quale del traffico nel nostro set di allenamento era normale e quale era il traffico di attacco, senza etichette. Ricorda, la carta presuppone che abbiamo un set di allenamento con molto traffico, che contiene un misto di traffico normale e di attacco e che non abbiamo etichette per dirci quale dei dati nel set di allenamento è normale e quali è dannoso.
Come spiega il documento, "Basandoci sul presupposto che una rete reale contenga molte più connessioni normali degli attacchi, [consideriamo] i cluster più piccoli per contenere gli attacchi e i cluster più grandi [...] per contenere connessioni normali o buone "(leggeri aggiustamenti alla grammatica per renderlo più chiaro). In altre parole, è proprio così che funziona la proposta di Nieves. Ovviamente non c'è nulla che dice che questo sia l'unico modo possibile per fare il rilevamento delle intrusioni - ma fornisce alcune spiegazioni sul perché Nieves abbia scelto di provare il particolare schema che ha fatto.
La mia risposta precedente:
È difficile sapere senza contesto (dovresti aver fornito un link o una citazione alla carta specifica a cui ti riferisci). Senza quello, possiamo solo indovinare.
Potrebbero riferirsi alla differenza tra apprendimento supervisionato e apprendimento non supervisionato . Nell'apprendimento supervisionato, supponiamo di disporre di un ampio set di formazione contenente molti pacchetti e ogni pacchetto è etichettato come "dannoso" o "legittimo".
Nell'apprendimento non supervisionato, supponiamo di avere un grande set di dati contenente molti pacchetti, ma nessuno di essi è etichettato. Se non hai etichette per i dati di allenamento, tutto ciò che puoi fare è raggruppare i dati in uno o più cluster.
Infine, c'è un'altra situazione che è comune per gli IDS basati sull'anomalia: ci viene dato un ampio set di addestramento contenente molti pacchetti, e si presume che tutto in questo set di addestramento sia legittimo (non dannoso) e rappresentativo del normale traffico non dannoso. Quindi, si può provare a costruire un modello di come appare il traffico normale; durante il funzionamento, se vedi un pacchetto che si discosta dal modello, allora potrebbe essere un attacco. Questo è il concetto base di rilevamento delle anomalie. Esistono molti modi per costruire un modello di traffico normale, ma una possibilità consiste nell'utilizzare il clustering (ad esempio, K-means) per raggruppare il traffico normale in uno o più cluster; durante il funzionamento, si presume che qualsiasi pacchetto in o vicino a uno di questi cluster sia un traffico normale e non dannoso. Se questo è ciò che sta accadendo, puoi vedere che funziona anche se esiste un solo cluster.
Se dovessi fare una supposizione, la mia ipotesi sarebbe su quest'ultima spiegazione. Ma senza una citazione su carta, è difficile dirlo con certezza.
P.S. Indipendentemente dalla tecnica utilizzata, puoi sperare di capire perché è importante che le anomalie (ad es. Il traffico malevolo) differiscano dal normale traffico. Se il traffico malevolo sembrava lo stesso del traffico normale, non avresti alcuna speranza di rilevarlo. E, in effetti, l'intera definizione di anomalia è "qualcosa di diverso dal normale", quindi per rilevare l'anomalia è utile per rilevare gli attacchi, dobbiamo presumere che il traffico dannoso sia anomalo (diverso dal normale traffico).