Esistono algoritmi esistenti che possono esaminare un elenco di parole e dividere o combinare le parole nella loro forma più comune?
Ad esempio, ho un elenco di molti nomi commerciali nel settore sanitario. La parola " healthcare " è spesso scritta " health care ". Esistono anche nomi commerciali che possono essere suddivisi o combinati, ad esempio " Walmart " e " Wal mart ".
Ci sono degli algoritmi che possono guardare la mia lista di parole e identificare che " healthcare " è più spesso scritto come due parole, e che " Wal mart " è più spesso scritto come una singola parola?
Sto cercando i nomi degli algoritmi esistenti (che possono essere utili durante la ricerca sul Web) o i link a white paper o post del blog esistenti.
Preferirei un algoritmo che non dipenda da un dizionario o da un altro elenco esterno di parole o nomi di aziende.
modifiche:
Sfondo:
Ho già un codice moderatamente riuscito in questa attività. Il codice è stato gettato insieme senza molto rigore. Speravo che esistessero alcuni algoritmi consolidati, che sarebbero probabilmente più accademici e completi di quello che ho scoperto. Questa domanda non riguarda il metodo che ho imparato, ma dire "è impossibile" non mi convince.
Chiarimento:
La "forma più comune" di una parola è il modo in cui le parole vengono scritte più spesso. Ad esempio, " Walmart " è apparso molte volte e " Wal mart " è apparso molte volte, ma " Walmart " è apparso più spesso di " Wal mart " e quindi " Walmart " è la "forma più comune" "della parola.
Non mi aspetto che questo algoritmo produca risultati perfetti. Come ogni problema di apprendimento automatico, mi aspetto che i risultati dipenderanno dalla qualità dei dati che fornisco e dalla quantità di dati che dispongo.