Lucene vs Solr - Documenti di indicizzazione pdf / word reisiding su un drive NAS usando .Net [closed]

0

Usando ASP.Net, voglio implementare la ricerca full-text usando Lucene / Solr su un GRANDE numero di documenti (word, pdf ecc.) che risiedono in una directory su un'unità NAS. L'unità NAS verrebbe mappata come unità di rete sul server. L'elenco dei documenti viene cambiato frequentemente. Secondo la mia ricerca, Lucene non indice direttamente pdf / word docs. I dati grezzi dei documenti devono essere estratti e quindi passati all'indicizzatore di Lucene. È consigliabile utilizzare PDFBox e altri strumenti di terze parti per estrarre dati binari e passare all'indicizzatore di Lucence. Quale sarebbe l'impatto sulla performance della ricerca di Lucene? Devo usare Solr al posto di Lucene in quanto supporta l'indicizzazione dei documenti pdf / word?

    
posta Shikha Arun 16.03.2015 - 06:16
fonte

1 risposta

3

Sì, Solr supporta immediatamente la confezione (beh, dopo un po 'di configurazione, vedere gli esempi dalla versione 4.9 in poi) Documenti PDF e Word. La cosa da notare è che Solr! = Lucene. Solr è un'astrazione di livello superiore rispetto a Lucene e, come tale, ha API, caratteristiche e comportamenti diversi.

IMHO, la differenza tra l'utilizzo di Solr e Lucene può essere sintetizzata brevemente come segue: Solr ha bisogno di meno configurazione / configurazione, rende più rapida l'implementazione, ma richiederà più risorse da eseguire rispetto a Lucene. Per i dettagli: Solr viene fornito con un'API REST, un sacco di cache e supporto per funzionalità avanzate come il clustering. Alcune di queste cose sono abilitate di default. In quanto tale, Solr avrà bisogno di più memoria per funzionare correttamente e possibilmente più CPU. È necessario tenere conto di tutti questi aspetti durante la configurazione, perché altrimenti, se si esegue un'implementazione Solr banale, si otterrà quello che sembra essere lo stesso comportamento dell'implementazione Lucene, ma richiede molte più risorse per essere eseguito con prestazioni simili .

    
risposta data 16.03.2015 - 14:07
fonte

Leggi altre domande sui tag