Possibili applicazioni dell'algoritmo ideato per differenziare tra testo strutturato e casuale

1

Ho scritto un programma che può rapidamente (entro 5 secondi su un desktop da 2 GB RAM, 2.33 Ghz CPU) differenziare tra testo strutturato (ad esempio testo inglese) e stringhe alfanumeriche casuali. Può anche fornire un punteggio di probabilità per la previsione.

Ci sono delle applicazioni pratiche / usi di tale programma? Si noti che il programma è basato su modelli entropici e non ha confronti con il dizionario nel suo flusso di lavoro.

    
posta rooznom 13.04.2012 - 07:08
fonte

4 risposte

1

Potresti usarlo per scansionare blocchi di testo casuali e identificare modelli e usare questi modelli per "prevedere" il futuro. Un po 'come un Nostradamus automatizzato. : -)

Su una nota più seria, forse potresti usarlo per selezionare stringhe di parole / frasi da un gruppo di stringhe generate casualmente. Di solito sono password desiderabili perché sono più facili da ricordare e di solito non appaiono in un dizionario.

    
risposta data 13.04.2012 - 08:20
fonte
1

L'applicazione tipica per questo (categorizzazione dei dati in base ai precedenti dati di allenamento - supponendo che sia effettivamente ciò che fa) sarebbe per un filtro spam adattivo. Altre cose a cui posso pensare:

  • categorizza i testi per lingua
  • stima entropia (maggiore è la probabilità di "completamente casuale", migliore è la tua entropia)
  • recupera il contenuto testuale da file o partizioni danneggiati
  • stimare la qualità dei post del forum (maggiore probabilità di "testo strutturato" significa più probabilità di essere scritto correttamente)
  • trova il payload del testo in chiaro nelle comunicazioni di rete sniffate
  • categorizza i testi secondo una proprietà stilistica, ad es. livello di formalità (gergo / informale / formale / ...) o poetico contro reale (è questo pezzo di testo tratto da un romanzo o da un articolo di cronaca?)

Dipende se il tuo algoritmo è adatto a questi problemi, ma se fa quello che penso che faccia, dovresti essere in grado di applicarlo a qualcuno di loro.

    
risposta data 13.04.2012 - 12:10
fonte
0

Potrebbe essere usato come parte di un programma come il comando Unix file per distinguere " Testo in inglese "da dati non strutturati".

    
risposta data 13.04.2012 - 08:04
fonte
0

Potresti "invertire" l'algoritmo, per generare frasi dall'aspetto naturale. Questo potrebbe essere usato nei giochi per generare il testo su cartelli e manifesti, giornali sul pavimento, ecc. In un mondo generato dalla procedura. Il testo sembrerebbe comprensibile, ma sembra ancora un linguaggio naturale.

Se comprendo correttamente il tuo algoritmo, fai qualche tipo di misura sull'entropia, quindi non modellerà accuratamente quali lettere dovrebbero essere usate dal testo. Se questo è il caso, un semplice tweak per generare probabili alternanze di vocali e consonanti, come proposto qui: link .

    
risposta data 15.04.2012 - 13:27
fonte