Ho un problema che speravo di poter ottenere un consiglio!
Ho un sacco di testo come input (circa 20 GB di valore, non MASSIVE ma abbastanza grande). Questo è solo testo libero, non strutturato.
Ho un 'elenco di categorie'. Voglio elaborare il testo e fare il riferimento incrociato degli elementi nell'elenco delle categorie e generare le categorie per ogni corrispondenza, ad es.
Inserisci testo
La rapida volpe marrone ha investito il cane pigro.
Ricerca categoria
Colore
Rosso | Marrone | Verde
Velocità
Lento | Veloce | Pigro | Veloce
Output previsto
Colore - Marrone
Velocità - Veloce, pigro
Per aggiungere alla complessità del problema, il testo sorgente probabilmente non corrisponde esattamente alle categorie, ad es. qui sarà applicato un algoritmo di corrispondenza fuzzy di sorta.
Voglio utilizzare la tecnologia "Big data" per risolvere questo problema (indipendentemente dal fatto che abbia davvero bisogno di big data non è la domanda - è un obiettivo secondario).
I miei pensieri sono di utilizzare Hadoop Map / Reduce with Lucene per eseguire la corrispondenza fuzzy.
Che ne pensi? Mi piace la base?
Grazie mille - QUALSIASI consiglio apprezzato !!
Duncan