Sfondo
Come parte di un'applicazione più ampia che consente agli utenti di cercare migliaia di documenti MS Office su una rete privata, ho bisogno di indicizzare e creare file di Microsoft Excel ricercabili.
Il mio approccio di base per tutti i tipi di documenti è questo:
- Passa in rassegna le directory raw che mi sono state date,
- Carica il documento in una condivisione di rete
- Estrai del testo ricercabile dal contenuto del documento.
- Crea un nuovo record MS SQL con il nome del documento, l'URL della sua posizione e il contenuto ricercabile.
- Utilizza l'indicizzazione
Full Text
di MS SQL nella colonna "contenuto" in modo che gli utenti finali possano cercare parole chiave o frasi tramite un'interfaccia utente.
Problema / Domanda
Non sono sicuro dell'approccio ottimale per l'estrazione di testo ricercabile dai documenti Excel. Il mio pensiero iniziale è di scorrere il documento: cell-by-cell ed estrarre tutto il testo e quindi concatenare quel testo insieme nel record SQL, ma questa sembra essere una cattiva strategia in quanto potrebbero esserci più celle che sono duplicati esatti, celle che sono solo numeriche e generalmente altri tipi di rumore.
Esiste un modello o una strategia di progettazione consolidata per il caso? In assenza di questo, accolgo e apprezzo qualsiasi suggerimento (come faranno i futuri utenti di Stack Exchange che affrontano lo stesso problema).