Per creare un autoencoder sparse, un modo è aggiungere qualcosa alla funzione che vogliamo minimizzare, il che più fa l'attività media delle unità nascoste a un parametro di sparsità, più grande sarà la tua aggiunta.
Ma perché questo auto-codificatore diventa scarso? Perché la maggior parte delle unità non diventa grande e non piccola nella maggior parte del tempo invece di poco tempo grande e più piccolo?
Perché non usare la somma di ln (1 + x ^ 2) con x su tutte le unità nascoste?