Come identificare un problema di classificazione PDF?

2

Stiamo eseguendo la scansione e il download di molti PDF aziendali e proviamo a scegliere quelli che sono rapporti annuali. Tali rapporti possono essere scaricati dalla maggior parte delle pagine relative alle relazioni con gli investitori.

I PDF vengono scansionati e il database è popolato, tra l'altro, di:

  • Titolo
  • Contenuti (testo completo)
  • Numero di pagine
  • Conteggio parole
  • Orientamento
  • Prima riga

Usando questi dati stiamo controllando le frasi ovvie come:

  • Rapporto annuale
  • Rendiconto finanziario
  • Rapporto trimestrale
  • Rapporto provvisorio

Quindi registra la frequenza di queste frasi e di altre. Finora disponiamo di circa 350.000 PDF da scansionare e di un set di training di 4.000 documenti che sono stati classificati manualmente come report o meno.

Stiamo sperimentando una serie di approcci diversi inclusi i classificatori bayesiani e la ponderazione dei diversi fattori disponibili. Stiamo costruendo il classificatore in Ruby. La mia domanda è: se stavi pensando a questo problema, da dove cominceresti?

    
posta Richard Burton 24.06.2012 - 19:55
fonte

1 risposta

1

Penso che dovresti abbinare la frase nei primi pochi (ad esempio 500 parole) poiché normalmente questi rapporti contengono informazioni se sono trimestrali o annuali solo nelle prime pagine (come 1Q2012, FY2012 ecc.). Insieme a questo puoi avere parole che non dovrebbero essere presenti nella relazione annuale.

Molto più semplice sarebbe capire se il rapporto è annuale o meno dal sito da cui si sta scaricando questo rapporto, quindi durante il download / scansione solo cercare queste informazioni sul sito stesso.

    
risposta data 27.06.2012 - 10:42
fonte

Leggi altre domande sui tag