Ho creato un modello di apprendimento automatico per rilevare se un utente che accede a un server o una rete è malintenzionato. Vorrei convalidare il modello usandolo su dati di addestramento o di convalida in sicurezza informatica.
Il modello di apprendimento automatico è un modello di cluster che funziona rilevando le anomalie nei dati. Spero di trovare dati che documentano diversi tipi di accesso utente a un server o una rete. Se è così, un esperto in materia può osservare più da vicino i cluster contrassegnati come anomali per verificare se sono costituiti da attacchi o meno.
Poiché il modello di apprendimento automatico è un modello di clustering, non sono richiesti dati di allenamento. Invece, il comportamento normale nell'insieme di dati viene stabilito e considerato non dannoso e si ipotizza che i dati anomali possano probabilmente contenere attacchi dannosi.
Poiché il modello di apprendimento automatico non rileva tipi specifici di attacchi ma raggruppa invece diversi tipi di anomalie, non importa quale tipo di dati viene presentato (netflow, pcap, registri server, ecc.). Spero solo di poter trovare un'ampia varietà di tipi di set di dati su cui testare.
L'unico problema è che non ho un set di dati da usare. Esistono grandi set di dati pubblici che posso utilizzare per convalidare il mio modello? Il set di dati dovrebbe contrassegnare gli attacchi con il tipo di attacco che è stato tentato.