Come faccio a distinguere tra espressioni con una sola parola e espressioni con due parole?

2

Mi è stato detto di creare due elenchi riguardanti le parole più usate da un testo semplice (10 Mb di testo arbitrario) come monogrammi (per espressioni con una sola parola come human, water, is) e bigrams (per espressioni di due parole come squadra di basket, stati uniti ecc.

Sono bloccato qui e non so come posso farcela! E come posso distinguere tra questi due?

Il mio dominio non è inglese, ho dato solo quegli esempi per rendere più chiara la mia intenzione e il mio significato.

    
posta Breeze 15.07.2013 - 17:50
fonte

1 risposta

1

Puoi provare a leggere dal testo parola per parola e creare 2 istanze di Dizionario, una per i monogrammi e una per i bigram, con l'espressione come Chiave e la ricorrenza come Valore. Con questo puoi fare alcune statistiche sull'uso delle espressioni. Puoi anche utilizzare la memoria del database per i file più grandi.

    
risposta data 19.07.2013 - 16:12
fonte

Leggi altre domande sui tag