Stiamo eseguendo la scansione e il download di molti PDF aziendali e proviamo a scegliere quelli che sono rapporti annuali. Tali rapporti possono essere scaricati dalla maggior parte delle pagine relative alle relazioni con gli investitori.
I PDF vengono scansionati e il database è popolato, tra l'altro, di:
- Titolo
- Contenuti (testo completo)
- Numero di pagine
- Conteggio parole
- Orientamento
- Prima riga
Usando questi dati stiamo controllando le frasi ovvie come:
- Rapporto annuale
- Rendiconto finanziario
- Rapporto trimestrale
- Rapporto provvisorio
Quindi registra la frequenza di queste frasi e di altre. Finora disponiamo di circa 350.000 PDF da scansionare e di un set di training di 4.000 documenti che sono stati classificati manualmente come report o meno.
Stiamo sperimentando una serie di approcci diversi inclusi i classificatori bayesiani e la ponderazione dei diversi fattori disponibili. Stiamo costruendo il classificatore in Ruby. La mia domanda è: se stavi pensando a questo problema, da dove cominceresti?