Stiamo costruendo un motore di ricerca presso il cliente. Per valutare i risultati, il cliente sta confrontando i migliori risultati N del nostro motore di ricerca con i migliori risultati N di un concorrente. E vogliono che io ottenga almeno un "X" percentuale di risultati comuni con il concorrente. E questa è l'unica metrica che usano per decidere il successo del progetto.
Ho provato a dirgli che non è una buona idea a causa di un semplice fatto che i dati che abbiamo sarebbero significativamente diversi dai dati che hanno. Ma stanno convenientemente ignorando questo fatto. (Su un campione di risultati, il 50% dei loro documenti NON sono indicizzati nel nostro database).
È una buona idea valutare i risultati confrontandoli con un altro motore di ricerca? Se sì, come gestiamo il fatto che il loro set di dati sarà naturalmente diverso dal nostro set di dati. Se non è una buona idea, perché? Quali sono i problemi con questo approccio?
EDIT: 1. Ho appena ottenuto i risultati "N" migliori per un numero fisso di query. Sembra che circa il 50% dei documenti non siano indicizzati nel nostro database!
-
Stiamo confrontando solo la presenza o l'assenza di risultati, non siamo interessati alla classifica al momento. Ma sento ancora che non lo rende una buona metrica.
-
Tra i nostri migliori risultati N, solo il 19% dei risultati è presente nei loro primi N risultati. In altre parole, intersezione, i nostri risultati e i loro risultati danno una corrispondenza del 19%.