La modifica della distanza può essere utilizzata in modo semplice per limitare solo la modifica agli errori di ortografia?

4

Per un piccolo progetto di hobby ho pensato di dare agli utenti la possibilità di modificare i loro contributi, ma, dal momento che i loro contributi saranno votati da altri utenti, limitare la modifica per correggere solo errori di ortografia (minori), preferibilmente agnostici di lingua naturale .

Durante un'indagine provvisoria sull'argomento ho pensato che potrei utilizzare modificare la distanza e argomenti correlati come (Damerau-) La distanza di Levenshtein, per questo.

Finora ho riflettuto sulla possibilità di inserire una determinata soglia di distanza di modifica su tutta la submission originale o sulle loro singole parole (per le lingue in cui ciò ha senso). Ora, certamente non voglio creare un algoritmo di elaborazione del linguaggio naturale complesso, ma ho la sensazione che questo sia un approccio troppo ingenuo, in particolare alla luce di linguaggi come giapponese e cinese, ecc. Dove la sostituzione di un singolo simbolo potrebbe cambiare l'intero significato di una frase.

Quindi, prima di approfondire questi argomenti a distanza di modifica, ho pensato di chiedere alla comunità se è anche possibile utilizzare semplicemente la distanza di modifica, in un modo abbastanza semplice come descritto sopra come misura ragionevolmente affidabile per qualcosa di simile . È? Oppure è troppo ingenuo e sono quasi certo legato alla creazione di un complesso algoritmo di elaborazione del linguaggio naturale e / o all'uso di dizionari completi per qualsiasi approccio ragionevolmente affidabile (nel qual caso probabilmente abbandonerò del tutto l'intera idea; -))?

Vieni a pensarci: dato che non ricordo di aver mai visto questo tipo di funzionalità sui principali siti con sistemi di votazione, probabilmente posso già indovinare la risposta, ma pensavo di chiederti comunque, solo per assicurati.

    
posta Codifier 15.09.2015 - 13:51
fonte

1 risposta

1

Se vuoi solo modificare le modifiche ortografiche, lo farai parola per parola, quindi il controllo di levenstein sull'intero testo probabilmente non funzionerà (specialmente con IIRC un piccolo cambiamento in avanti può avere un grande effetto a catena in un documento di grandi dimensioni).

È probabilmente meglio codificare ogni parola con un codice soundex (o meglio, un doppio-metaphone) e consentire modifiche lì - ma solo se il codice non cambia (cioè la parola può cambiare ma il suono non lo fa) t, quindi puoi essere ragionevolmente sicuro che non è stato cambiato dal suo significato originale, solo l'ortografia).

Il progetto ASpell (correttore ortografico) utilizza il metaphone per offrire suggerimenti di sostituzione, quindi è molto più adatto solo per le alterazioni di ortografia.

    
risposta data 15.09.2015 - 14:19
fonte

Leggi altre domande sui tag