Qual è una buona parola d'arresto nell'indicizzazione di testo completo?

3

Quando vai all'Appendice D in Oracle Text Reference forniscono elenchi di stopword utilizzati da Oracle Text durante l'indicizzazione dei contenuti della tabella.

Quando vedo la lista inglese, niente mi lascia perplesso. Ma il motivo per cui la lista francese include moyennant (in francese per in vista di quale ) per esempio non è chiaro. Probabilmente Oracle l'ha pensato più volte prima di includerlo.

Come formeresti una lista di stopword appropriate se dovessi progettare un indicizzatore?

    
posta Benoit 04.02.2011 - 14:19
fonte

2 risposte

1

Non ho mai provato a creare un elenco di parole chiave prima, ma il mio approccio sarebbe analisi statistica dell'aspetto delle parole nel testo corpus.

Le parole comuni, che appaiono in molti documenti su tutto il corpo con probabilità simile (e forse bassa deviazione standard), sono cattive per "identificare" qualsiasi documento dato, dovrebbero andare nella lista delle parole d'arresto.

Viceversa, le parole rare sono eccellenti per "identificare" i documenti (e sono buone parole chiave e termini di ricerca), e non dovrebbero andare nell'elenco delle parole d'arresto.

    
risposta data 04.02.2011 - 20:03
fonte
0

Le persone di solito non cercano articoli, pronomi, preposizioni, congiunzioni e simili ... aggiungendoli al tuo indice aggiunge solo rumore. Includerei anche frasi comuni che non aggiungono realmente significato al testo (mentre invece, d'altra parte). Moyennant sembra rientrare in quest'ultima categoria, questo è probabilmente il motivo per cui è incluso come termine di stop.

    
risposta data 04.02.2011 - 16:18
fonte

Leggi altre domande sui tag