Sto studiando modi per classificare le parole nel testo e mi sto chiedendo quali opzioni ci siano e quali siano le più adatte a questo lavoro. Sono principalmente interessato a parole chiave che sono più spesso sostantivi.
Finora so che potrei usare un classificatore, una lista nera o una lista bianca Bayes. Tuttavia, non ho avuto la massima fortuna con ciascuno di questi fino ad ora.
Ho iniziato con una lista bianca utilizzando le parole fornite da wordnet e moby per tentare di individuare ogni nome. Tuttavia, molte parole sono state perse in quanto non esistenti nel database, o non essendo nomi.
Successivamente ho provato a creare una blacklist per abbinare qualsiasi cosa, ad eccezione di stop-words, verbi e così via. Tuttavia, ci vorrebbe un lungo investimento di tempo per costruire un elenco abbastanza grande da gestire le 200.000 parole inglesi conosciute (figuriamoci altre lingue). Inoltre, mantenere tante parole in memoria per il confronto non è pratico per le prestazioni su hardware commodity.
Usando ho avuto fortuna con un classificatore bayes che combina spam e sentimento, ma non sono sicuro di come usarlo per dire nomi (o parole chiave) da altre parole poiché ci sono così tante somiglianze tra tutti i gruppi di parole.
Infine, ho provato a utilizzare espressioni regolari per individuare le parole chiave in base a nomi e nomi propri poiché sono sempre in maiuscolo in inglese. Il problema è che molte parole chiave non sono maiuscole, con conseguente mancanza di risultati.
Quali altre opzioni esistono per la classificazione delle parole chiave? Quali altri schemi di progettazione posso utilizzare con le opzioni sopra per ottenere risultati migliori?