Diciamo che ho un corpus grande (per esempio in inglese o una lingua arbitraria), e voglio fare qualche ricerca semantica su di esso. Ad esempio, ho la query:
"Fai attenzione: [art] l'armada di [sg] sta arrivando a [do sg]!"
E il corpus contiene la seguente frase:
"Fai attenzione: un'armata di navi aliene sta arrivando per distruggere il nostro pianeta!"
Si può vedere che la mia stringa di query potrebbe contenere "segnaposti semantici", come ad esempio:
[arte] - qualche segnaposto per articoli (ad esempio a / an in inglese) [sg], [do sg] - alcuni segnaposto per NP e VP (soggetti e predicati) Mi piacerebbe sviluppare una libreria che sarebbe in grado di gestire queste query in modo efficiente. Sospetto che per l'analisi del testo sia necessaria una sorta di codifica dei POS, ma poiché non voglio reimplementare completamente un motore di ricerca full-text già esistente per farlo funzionare, sto considerando che come potrei integrare questo comportamento in un motore di ricerca come Lucene?
So che ci sono SpanQueries che potrebbero comportarsi allo stesso modo in alcuni casi, ma come posso vedere, Lucene non fa nulla di semantico con i testi memorizzati.
È possibile implementare un comportamento come questo? O devo scrivere un proprio motore di ricerca?