Problemi con la valutazione dei risultati del motore di ricerca per confronto

0

Stiamo costruendo un motore di ricerca presso il cliente. Per valutare i risultati, il cliente sta confrontando i migliori risultati N del nostro motore di ricerca con i migliori risultati N di un concorrente. E vogliono che io ottenga almeno un "X" percentuale di risultati comuni con il concorrente. E questa è l'unica metrica che usano per decidere il successo del progetto.

Ho provato a dirgli che non è una buona idea a causa di un semplice fatto che i dati che abbiamo sarebbero significativamente diversi dai dati che hanno. Ma stanno convenientemente ignorando questo fatto. (Su un campione di risultati, il 50% dei loro documenti NON sono indicizzati nel nostro database).

È una buona idea valutare i risultati confrontandoli con un altro motore di ricerca? Se sì, come gestiamo il fatto che il loro set di dati sarà naturalmente diverso dal nostro set di dati. Se non è una buona idea, perché? Quali sono i problemi con questo approccio?

EDIT: 1. Ho appena ottenuto i risultati "N" migliori per un numero fisso di query. Sembra che circa il 50% dei documenti non siano indicizzati nel nostro database!

  1. Stiamo confrontando solo la presenza o l'assenza di risultati, non siamo interessati alla classifica al momento. Ma sento ancora che non lo rende una buona metrica.

  2. Tra i nostri migliori risultati N, solo il 19% dei risultati è presente nei loro primi N risultati. In altre parole, intersezione, i nostri risultati e i loro risultati danno una corrispondenza del 19%.

posta tired and bored dev 07.08.2018 - 23:24
fonte

1 risposta

1

Il confronto con un oracolo è sempre una buona idea, quando disponibile. Anche il confronto con un concorrente principale è una buona idea.

La tua metrica per il confronto non sembra ben pensata (e se i risultati arrivano in un ordine molto diverso? E se vengono in un ordine leggermente diverso?).

Se stai indicizzando un set di URL (documenti) e il tuo oracle (confronto) un altro insieme di documenti (si sovrappongono, ma non sono identici) e desideri confrontarli - è facile: basta buttare via qualsiasi risultato non all'incrocio. Quindi, in altre parole, prima di confrontare, per ciascuno dei risultati dei tuoi motori di ricerca, controlla se si trova nell'altro motore di ricerca, e in caso contrario, buttalo via (che potrebbe essere o non essere possibile dato come funziona l'altro motore di ricerca) . Ma più facilmente, puoi buttare via qualsiasi risultato dall'altro motore che non appare nei risultati. Puoi quindi ottenere un numero sufficiente di risultati extra da ciascun motore per ottenere fino a "N" su entrambi i lati da confrontare.

Questo dovrebbe darti un confronto più mirato tra mele e mele dei risultati dei motori di ricerca (non perfetto perché il motore potrebbe buttare via alcuni risultati perché sembrano dei risultati precedenti ma il meglio che posso pensare dato i tuoi vincoli).

    
risposta data 08.08.2018 - 01:24
fonte

Leggi altre domande sui tag