Sto valutando seriamente un motore di ricerca web per il mio prossimo progetto per animali domestici. Tutti i principi di base sono chiari, ma alcuni dettagli non lo sono. Vale a dire, non riesco a trovare un modo pulito per cercare per corrispondenza esatta, e. g. "The Who".
Questo requisito impone limitazioni su come posso modificare il testo sorgente:
- Non posso usare un elenco di parole di arresto (parole ad alta frequenza e bassa rilevanza come le preposizioni - potrebbero essere molto pertinenti in alcuni casi d'angolo!).
- Non posso usare lo stemming (convertire le parole nella loro forma lessicale di base). Se lo uso, non posso dire "programma" da "programmato" e così via.
Non essere in grado di trasmettere tutte le parole alle loro forme di base e buttare via le parole di basso valore comuni significa un indice molto, MOLTO più grande. E peggio ancora, per le query di ricerca comuni che traggono vantaggio dalla derivazione, come posso implementarla? L'unica soluzione che vedo è mantenere due indici, uno con parole effettive e uno con parole derivate, ma dover tenere due copie di Internet non è davvero una soluzione: uno è già abbastanza per farmi graffiare la testa.