Sto lavorando per un'azienda che ha un'abbondanza di file Word ed Excel che se la spassano nelle profondità del loro file server, probabilmente come la maggior parte delle altre società. Il problema è che ognuno di questi file contiene pepite di informazioni che, per lo meno, potrebbero fornire informazioni preziose sulle prestazioni passate. Non esiste un metodo "ufficiale" disponibile per la società per recuperare questi file, non importa rivederli.
Quindi, sto preparando un rapporto per la società che dice sostanzialmente: "Trattate i vostri file come cimiteri di informazioni e le vostre cartelle come bare di documenti!" Come puoi immaginare, sto cercando di trovare un modo più diplomatico per dirlo!
Ad esempio, considera un documento di contratto tradizionale tra un'azienda e il suo cliente, scritto in Word. Può contenere un po 'di testo, forse alcune immagini. In breve, è soprattutto un opuscolo che parla di quanto sia grande l'azienda e che stia dicendo la stessa cosa che ha detto il contratto precedente, ma le differenze sono i dettagli del cliente e il valore del contratto. Idealmente, saremmo in grado di interrogare tale documento in modo da poter estrarre valori come questi e utilizzarli nel nostro reporting finanziario aggregato.
Ora probabilmente starai pensando: "Usa semplicemente un file di modello e compilalo con i dettagli che sono diversi! Salva le tue chiavi ei loro valori in un database!" Come ingegneri del software, intuitivamente sappiamo di suggerire cose del genere. Ciò che non è intuitivo per il personale dell'ufficio è come riconoscere che stanno archiviando per sempre queste pepite di informazioni e che esiste un'alternativa.
- Come faccio a chiamare questo problema?
- Quali metodi o modelli esistono per aiutare a scomporre un documento in linguaggio naturale (come il contratto precedente) al fine di determinare quali valori-chiave sono presenti - in altre parole, come determinare l'ambito del dominio dell'applicazione?