Come separo le parole in una stringa?
Di seguito ho un campione casuale di parole in una stringa estratta da un file di testo con oltre un milione di parole.
Ecco la stringa: "intervengono Tasche Gerusalemme e tessuti potenti giorni gadget tasso invenzione riscaldata Stewartis trova lotti di lavoro comunali interni Hanno causato rumore goand grandi salti perdono galassie Tutti Mall nascita mondo mondo rotazione ucciso prodotto grande centro Non fingere soluzione Africa tempi cursore buona notte problema professionale rifugiati parlare"
Come puoi vedere, la terza parola è "Jerusalemand". Il mio obiettivo è quello di separare "Gerusalemme" e "e", e fare la stessa cosa per qualsiasi altra parola che si blocca insieme.
L'unica cosa a cui potrei pensare fin d'ora è di confrontare ogni parola della stringa con un dizionario (forse SCOWL?), e se un segmento della parola corrisponde a una parola nel dizionario, dovrò dividere le parole per renderle indipendenti.
Ad esempio, per "Jerusalemand" farò un loop di ogni personaggio fino a quando non trovi una corrispondenza nel dizionario per "Jerusalem", quindi posso separarla da "and," a sua volta completando la separazione.
Non dovrebbe esserci un modo migliore per farlo?