Le funzionalità che possono essere estratte da un file PE (alcune informazioni da intestazioni, nomi di sezione, stringhe, importazione, sezioni di esportazione, ecc.) sono sufficienti per utilizzarle per addestrare determinati algoritmi di apprendimento automatico per rilevare se il file sospetto è dannoso o non?
Ho incontrato due opinioni diverse:
La prima opzione afferma che queste funzionalità sono sufficienti per creare un sistema di rilevamento di base. Inoltre, per aumentare l'efficienza e la precisione, è possibile includere gli attributi comportamentali (ad esempio le chiamate API).
Tuttavia, la seconda opinione afferma che questi attributi sono inutili in molti casi perché molte di queste funzionalità sono ridondanti e le funzionalità ridondanti possono danneggiare la qualità di un modello.
Mi chiedo anche se sia possibile rilevare se un campione di malware è simile a un altro campione e implica che uno è una variante dell'altro? Questo tipo di informazioni è utile nel rilevamento di malware?