Quali metodi esistono per decomporre documenti al fine di spostare chiavi / valori in un'applicazione di database?

1

Sto lavorando per un'azienda che ha un'abbondanza di file Word ed Excel che se la spassano nelle profondità del loro file server, probabilmente come la maggior parte delle altre società. Il problema è che ognuno di questi file contiene pepite di informazioni che, per lo meno, potrebbero fornire informazioni preziose sulle prestazioni passate. Non esiste un metodo "ufficiale" disponibile per la società per recuperare questi file, non importa rivederli.

Quindi, sto preparando un rapporto per la società che dice sostanzialmente: "Trattate i vostri file come cimiteri di informazioni e le vostre cartelle come bare di documenti!" Come puoi immaginare, sto cercando di trovare un modo più diplomatico per dirlo!

Ad esempio, considera un documento di contratto tradizionale tra un'azienda e il suo cliente, scritto in Word. Può contenere un po 'di testo, forse alcune immagini. In breve, è soprattutto un opuscolo che parla di quanto sia grande l'azienda e che stia dicendo la stessa cosa che ha detto il contratto precedente, ma le differenze sono i dettagli del cliente e il valore del contratto. Idealmente, saremmo in grado di interrogare tale documento in modo da poter estrarre valori come questi e utilizzarli nel nostro reporting finanziario aggregato.

Ora probabilmente starai pensando: "Usa semplicemente un file di modello e compilalo con i dettagli che sono diversi! Salva le tue chiavi ei loro valori in un database!" Come ingegneri del software, intuitivamente sappiamo di suggerire cose del genere. Ciò che non è intuitivo per il personale dell'ufficio è come riconoscere che stanno archiviando per sempre queste pepite di informazioni e che esiste un'alternativa.

  • Come faccio a chiamare questo problema?
  • Quali metodi o modelli esistono per aiutare a scomporre un documento in linguaggio naturale (come il contratto precedente) al fine di determinare quali valori-chiave sono presenti - in altre parole, come determinare l'ambito del dominio dell'applicazione?
posta boatingcow 31.10.2018 - 16:57
fonte

3 risposte

1

La standardizzazione di documenti come i contratti in un modo in cui le informazioni contenute diventano leggibili dalla macchina richiede un certo sforzo. Tu o la tua azienda non la ricevete gratis. E questo non è fine a se stesso, dovrebbe essere un mezzo per un fine. Quindi, prima di chiedere metodi per implementarlo, è meglio chiedere alla direzione se ritengono che valga davvero la pena.

Detto questo, c'è un metodo uno che conosco per ottenere ciò che ti viene suggerito, ma probabilmente non è il tipo di risposta che ti aspetti: fai acquistare e lanciare una società alla tua azienda- ampio sistema ERP come SAP. Questo dovrebbe fornire l'infrastruttura per memorizzare la maggior parte delle informazioni "importanti" in un database strutturato e obbliga tutti in azienda a mantenere contratti, ordini, fatture, informazioni di pagamento o altri dati relativi alle attività commerciali in quel luogo.

Indipendentemente se ti piace o meno una tale soluzione, i sistemi ERP in genere consentono di creare documenti di business intelligence come i report finanziari automaticamente dal database, cosa che non può essere facilmente automatizzata quando i dati aziendali sono archiviati esclusivamente in file Word non strutturati.

    
risposta data 31.10.2018 - 21:40
fonte
0

Estrarre coppie chiave / valore è molto difficile su documenti non strutturati. Tuttavia ci sono molti strumenti per costruire indici sul contenuto. Suggerisco un google di qualcosa di simile "parola di gestione dei documenti open source excel" Questo dovrebbe darti una prospettiva.

    
risposta data 31.10.2018 - 22:33
fonte
0

Il campo generale che ti interessa è chiamato "Gestione documenti". In un ambiente che ha buone pratiche di gestione dei documenti, i documenti sono trattati come entità di prima classe. I documenti hanno cicli di vita, processi e governatori.

I documenti hanno metadata associati ad essi. I metadati del file system come nome del file, tempo di creazione, tipo di file e così via, sono i metadati tradizionali. In un ambiente Microsoft Office, i metadati aggiuntivi vengono spesso creati sotto forma di proprietà del documento.

I processi di gestione dei documenti vengono solitamente eseguiti nel contesto di un sistema di gestione dei documenti, manuale o automatizzato.

Le pratiche di governance per i documenti sono politiche e procedure richieste dalla tua organizzazione per gestire il ciclo di vita dei dati nei tuoi documenti. È possibile avere familiarità con la governance se la propria organizzazione è tenuta a conformarsi a Sarbanes-Oxley o ad altri processi imposti dal governo.

    
risposta data 31.10.2018 - 22:52
fonte

Leggi altre domande sui tag