Frase Algoritmo di valutazione delle parole

4

Ho bisogno di un algoritmo per rilevare le risposte errate nella memorizzazione delle frasi. Confuso? Lascia che ti mostri. Devo ripetere la frase seguente per la memorizzazione:

The quick brown fox jumps over the lazy dog.

La mia versione memorizzata (questo è un esempio, persone) è questa:

Quick the brown fox jumped over my lazy fat dog.

Se confronti le frasi seguenti, diresti che su 10 punti possibili (numero di parole), mi mancheranno 4 punti (6/10). Per prima cosa, ho commutato "veloce" e "il" intorno, "salti" errati "come" saltati ", errato" il "come" mio "e aggiunto la parola extra" grasso ". Ora quello che sto cercando è una sequenza, o un algoritmo, per un computer per farlo. All'inizio ho rimosso tutte le parole che sono state trovate, indipendentemente dalla loro posizione, e poi ho preso il numero più alto di parole rimaste sul lato corretto e sbagliato, come questo. Di seguito sarebbe rimasto dopo aver rimosso le parole trovate.

___ _____ _____ ___ jumps ____ the ____ ___. (lato corretto)

_____ __ _____ ___ jumped ____ my ____ fat ___. (lato errato)

Questo algoritmo mi direbbe che ho perso 3 punti, dal momento che il lato sbagliato aveva 3 parole a sinistra. Ha perso lo scambio di "veloce" e "il".

Se chiedessi che ogni parola fosse nel posto giusto, accadrebbe quanto segue:

The quick _____ ___ jumps ____ the ____ dog.

Quick the _____ ___ jumped ____ my ____ fat dog.

Avrei perso 6 punti per questo, invece di 4. Notate come non cattura lo scambio di "the" e "quick", così come l'offset di "dog" solo perché ho aggiunto una parola, I perso 2 punti per quello.

Un altro paio di test per te, se trovi un algoritmo: (le mie risposte)

Brown quick foxes jump over the dog. (miss 5)

The quick and fast fox jumps over my incredibly lazy dog. (miss 4)

Dog lazy the over jumps fox brown quick the. (mancata 9, ho perso tutto tranne uno di essi come ancoraggio).

Inoltre, se pensi che ci sia un "metodo di valutazione" migliore quando si memorizzano le frasi, renderle note.

    
posta Zzzach... 25.09.2015 - 19:31
fonte

1 risposta

1

Questo finirà per essere specifico del dominio. È probabile che sia una serie di diversi motori che contribuiscono ciascuno a una parte del punteggio.

È possibile calcolare pesi in "è questo errore di ortografia" di Soundex o doppio metaphone . In alternativa, guarda il blog di Norvig .

Quindi rispondi a domande come "quanto vicino è l'ordine delle parole" (Levingston o Hamming), sono presenti parole insolite (che significano "pigro" ma non "il"), e così via. Applicare un valore di punteggio all'output. Per ulteriori crediti, vedi chi utilizza quindi correttamente le conoscenze di base e reinseriscile nell'algoritmo di ponderazione.

La ponderazione deve essere specifica del dominio. Ad esempio, nel dominio della Guerra Nucleare, vuoi che i codici di lancio nucleari siano esattamente perfetti, il targeting di lat / long richiede che le cifre siano precise, ma il nome della città deve solo essere capito, ad esempio, "Saint Pete's" va bene per "San Pietroburgo, Russia". La precisione necessaria è ciò che è necessario per "successo".

    
risposta data 26.09.2015 - 20:12
fonte

Leggi altre domande sui tag