Ho letto il codice aritmetico e, mentre capisco come funziona, tutte le guide e le istruzioni che ho letto iniziano con qualcosa del tipo:
Set up your intervals based upon the frequency of symbols in your data; i.e., more likely symbols get proportionally larger intervals.
La mia domanda principale è, una volta che ho codificato i miei dati, presumibilmente devo anche includere questo modello statistico con la codifica, altrimenti i dati compressi non possono essere decodificati. È corretto? Non vedo questo accennato da nessuna parte - il più che ho visto è che è necessario includere il numero di iterazioni (cioè simboli codificati) - ma a meno che manchi qualcosa, anche questo mi sembra necessario. / p>
Se questo è vero, questo ovviamente aggiungerà un sovraccarico all'output finale. A che punto questo supera i benefici della compressione (ad esempio, se sto provando a comprimere solo poche migliaia di bit)? Anche la scelta della dimensione del simbolo farà una differenza significativa (ad es., Se guardo le parole a 2 bit, piuttosto che gli ottetti completi / qualunque cosa)?