Un classico esempio di letteratura aperta sarebbe il progetto Gutenberg di ebooks disponibili gratuitamente, ma potresti anche limitarti a raccolte di email di grandi dimensioni come il set di dati Enron che potrebbe rispecchiare meglio le effettive distribuzioni di frequenza nelle comunicazioni tra esseri umani, o persino strisciare tutti gli articoli di Wikipedia .
Le prime due risorse menzionate possono essere trovate su il cloud di dati scientifici aperto .
Gli archivi di articoli di Wikipedia da molte lingue diverse possono anche essere trovati online.
Se decidi di eseguire la scansione dei dati, tieni presente che le frequenze differiscono in base alla lingua in cui è scritto il testo normale prima di crittografarlo con uno dei sistemi di crittografia a bassa frequenza che preserva la frequenza. Scegli i dati di esempio nella lingua corretta o i risultati potrebbero essere fuorvianti.
Tuttavia, tieni presente che non è necessario reinventare tutto da zero.
La distribuzione di frequenza è un argomento ben studiato e il tuo script potrebbe utilizzare tabelle precompilate da altre persone.
Ciò è particolarmente interessante, poiché l'analisi della frequenza ha solo uno scopo educativo e non può essere utilizzata principalmente per analizzare la crittografia del mondo reale.
L'articolo di Wikipedia su frequenze lettera è una buona fonte per molte lingue diverse. Ricontrolla le loro fonti per verificare come sono state costruite (ad esempio, quelle inglesi sono tratte da un dizionario, mentre quelle portoghesi sono tratte dalla letteratura).