Come identificare un problema di classificazione PDF?

Question

Come identificare un problema di classificazione PDF?

#1 da (1 voti)

2

Stiamo eseguendo la scansione e il download di molti PDF aziendali e proviamo a scegliere quelli che sono rapporti annuali. Tali rapporti possono essere scaricati dalla maggior parte delle pagine relative alle relazioni con gli investitori.

I PDF vengono scansionati e il database è popolato, tra l'altro, di:

Titolo
Contenuti (testo completo)
Numero di pagine
Conteggio parole
Orientamento
Prima riga

Usando questi dati stiamo controllando le frasi ovvie come:

Rapporto annuale
Rendiconto finanziario
Rapporto trimestrale
Rapporto provvisorio

Quindi registra la frequenza di queste frasi e di altre. Finora disponiamo di circa 350.000 PDF da scansionare e di un set di training di 4.000 documenti che sono stati classificati manualmente come report o meno.

Stiamo sperimentando una serie di approcci diversi inclusi i classificatori bayesiani e la ponderazione dei diversi fattori disponibili. Stiamo costruendo il classificatore in Ruby. La mia domanda è: se stavi pensando a questo problema, da dove cominceresti?

algorithms ruby

posta Richard Burton 24.06.2012 - 17:55

fonte

1 risposta

Leggi altre domande sui tag algorithms ruby

Facebook Pagamenti e crediti vs. Real-World & Charities [chiuso] Qualche approccio suggerito per tracciare bug / difetti?

score 1 · Accepted Answer

Penso che dovresti abbinare la frase nei primi pochi (ad esempio 500 parole) poiché normalmente questi rapporti contengono informazioni se sono trimestrali o annuali solo nelle prime pagine (come 1Q2012, FY2012 ecc.). Insieme a questo puoi avere parole che non dovrebbero essere presenti nella relazione annuale.

Molto più semplice sarebbe capire se il rapporto è annuale o meno dal sito da cui si sta scaricando questo rapporto, quindi durante il download / scansione solo cercare queste informazioni sul sito stesso.