Ho bisogno di estrarre campi come il numero del documento, la data e l'importo della fattura da un gruppo di file .csv, che a mio avviso vengono definiti "testo non strutturato". Ho alcuni file di input etichettati e useremo NLTK e Python per progettare un algoritmo di estrazione dei dati.
Per il primo ciclo di classificazione, ho intenzione di usare la ponderazione tf-idf con un classificatore per identificare il tipo di documento - ci sono più file che usano lo stesso formato.
A questo punto, ho bisogno di un modo per estrarre il campo dal documento, dato che si tratta di un tipo di documento X. Ho pensato di utilizzare funzionalità come "numeri più comuni" o "numero più grande con una virgola" per trovare l'importo della fattura, ad esempio, ma poiché l'importo della fattura può avere qualsiasi valore numerico, credo che la dimensione del campione sarebbe inferiore al numero di caratteristiche possibili? (Non ho una formazione qui, sopporta me.)
C'è un modo migliore per fare la seconda parte? Penso che la prima parte dovrebbe essere a posto, ma non sono sicuro che la seconda parte funzioni o se capisco davvero il problema. Com'è il mio approccio in generale? Sono nuovo di questo genere di cose e questo è stato il migliore che potrei inventare.