Strategia di indicizzazione del testo completo per documenti MS Excel

0

Sfondo

Come parte di un'applicazione più ampia che consente agli utenti di cercare migliaia di documenti MS Office su una rete privata, ho bisogno di indicizzare e creare file di Microsoft Excel ricercabili.

Il mio approccio di base per tutti i tipi di documenti è questo:

  1. Passa in rassegna le directory raw che mi sono state date,
  2. Carica il documento in una condivisione di rete
  3. Estrai del testo ricercabile dal contenuto del documento.
  4. Crea un nuovo record MS SQL con il nome del documento, l'URL della sua posizione e il contenuto ricercabile.
  5. Utilizza l'indicizzazione Full Text di MS SQL nella colonna "contenuto" in modo che gli utenti finali possano cercare parole chiave o frasi tramite un'interfaccia utente.

Problema / Domanda

Non sono sicuro dell'approccio ottimale per l'estrazione di testo ricercabile dai documenti Excel. Il mio pensiero iniziale è di scorrere il documento: cell-by-cell ed estrarre tutto il testo e quindi concatenare quel testo insieme nel record SQL, ma questa sembra essere una cattiva strategia in quanto potrebbero esserci più celle che sono duplicati esatti, celle che sono solo numeriche e generalmente altri tipi di rumore.

Esiste un modello o una strategia di progettazione consolidata per il caso? In assenza di questo, accolgo e apprezzo qualsiasi suggerimento (come faranno i futuri utenti di Stack Exchange che affrontano lo stesso problema).

    
posta Matt Cashatt 22.06.2014 - 18:23
fonte

1 risposta

1

I file di Excel usano una tabella di stringhe che "piega insieme" le voci duplicate; se sei disposto a fare il lavoro, l'apprendimento del formato del file e il raggiungimento di quella tabella di stringhe verrebbero eseguiti molto più rapidamente rispetto all'avvio di Excel, ecc. ecc. Questa strategia avrebbe un difetto: NON indicizzerebbe le stringhe che erano il risultato di formule, perché quelle non sono nella tabella.

    
risposta data 22.06.2014 - 21:31
fonte

Leggi altre domande sui tag