Esistono algoritmi esistenti che possono esaminare un elenco di parole e dividere o combinare le parole nella loro forma più comune?
Ad esempio, ho un elenco di molti nomi commerciali nel settore sanitario. La parola " healthcare
" è spesso scritta " health care
". Esistono anche nomi commerciali che possono essere suddivisi o combinati, ad esempio " Walmart
" e " Wal mart
".
Ci sono degli algoritmi che possono guardare la mia lista di parole e identificare che " healthcare
" è più spesso scritto come due parole, e che " Wal mart
" è più spesso scritto come una singola parola?
Sto cercando i nomi degli algoritmi esistenti (che possono essere utili durante la ricerca sul Web) o i link a white paper o post del blog esistenti.
Preferirei un algoritmo che non dipenda da un dizionario o da un altro elenco esterno di parole o nomi di aziende.
modifiche:
Sfondo:
Ho già un codice moderatamente riuscito in questa attività. Il codice è stato gettato insieme senza molto rigore. Speravo che esistessero alcuni algoritmi consolidati, che sarebbero probabilmente più accademici e completi di quello che ho scoperto. Questa domanda non riguarda il metodo che ho imparato, ma dire "è impossibile" non mi convince.
Chiarimento:
La "forma più comune" di una parola è il modo in cui le parole vengono scritte più spesso. Ad esempio, " Walmart
" è apparso molte volte e " Wal mart
" è apparso molte volte, ma " Walmart
" è apparso più spesso di " Wal mart
" e quindi " Walmart
" è la "forma più comune" "della parola.
Non mi aspetto che questo algoritmo produca risultati perfetti. Come ogni problema di apprendimento automatico, mi aspetto che i risultati dipenderanno dalla qualità dei dati che fornisco e dalla quantità di dati che dispongo.