Stiamo cercando un modo per tokenizzare del testo nello stesso modo in cui lo farebbe un motore di ricerca.
Il motivo per cui stiamo facendo questo è che possiamo eseguire alcune analisi statistiche sui token. Il linguaggio che stiamo usando è python, quindi preferirei una tecnica che funziona in quel linguaggio, ma probabilmente potrebbe impostare qualcosa per usare un'altra lingua se necessario.
Esempio
Token originale:
We have some great burritos!
Più semplificato: (rimuovi plurali e punteggiatura)
We have some great burrito
Ancora più semplificato: (rimuovi le parole superflue)
great burrito
Miglior: (riconosce il significato positivo e negativo):
burrito -positive-