Sto lavorando con una libreria Java utilizzata per identificare la lingua di un determinato testo. Si basa su un'analisi n-gram del testo per restituire un insieme di lingue che potrebbe essere e la "sicurezza" che è quella lingua.
Ho scritto una classe wrapper per eseguirlo, tuttavia, non è deterministico (i risultati sono generalmente non corretti con l'input di < 200 caratteri, non preoccuparti per questo):
C:\wamp\www\langdetect [master]> java Detect viking rowboat
af:0.8571411945873898 lt:0.1428569473433962
C:\wamp\www\langdetect [master]> java Detect viking rowboat
af:0.5714268373011915 sw:0.2857137271014559 lt:0.14285898741269984
C:\wamp\www\langdetect [master]> java Detect viking rowboat
af:0.9999958253321346
L'analisi non è deterministica per impostazione predefinita (può essere definita deterministica in questo modo: link ) ma la mia domanda è questa:
C'è qualche vantaggio che questa analisi sia non deterministica?
L'unico vantaggio che posso pensare è che un algoritmo deterministico, statisticamente, sarà errato in una percentuale del tempo (anche con input validi), mentre non deterministico rimuove questa garanzia (ma a volte non è corretta). Questo ha senso?