Come creare un qualche tipo di valore per le frasi? [chiuso]

-2

Voglio identificare la maggior parte della frase corrispondente usando un pattern. Ciò significa che utilizzando l'algoritmo java voglio creare un valore identico per ogni frase. Ogni frase quando si entra in quell'algoritmo può essere fuori un qualche tipo di valore identico. Come posso svilupparlo? Cosa posso riferire a siti Web che conosci? Che tipo di siti dovrei cercare? In realtà voglio chiarire quando sto dando come ex: 5 frase all'algoritmo che è possibile generare un qualche tipo di 5 valori. Poi mi confronto con quei valori con valori precedentemente generati (dovrei memorizzare questi valori nel mio database) e ottenere il divario tra il nuovo valore 5 e i valori precedentemente memorizzati. Poi ottengo la distanza e ho selezionato la frase più adatta come il valore di gap più basso.

Uso queste cose per il mio strumento di traduzione automatica. Ad esempio pensiamo che l'utilizzo del mio modello di traduzione basato su regole genera 2 frasi. 1. Voglio mangiare una mela. 2. Voglio mangiare una casa. Nel mio corpus pensiamo che più frasi includano e memorizzo i valori per le frasi nel mio database. (La parte assegnata al valore è che non lo so ancora) Voglio creare un algoritmo java per assegnare valore per ogni frase. Ad esempio se pensiamo Valore frase 1: 250,8 Valore frase 2: 290.5

Database inclusi valori 248, 400,800 Poi ho ottenuto la differenza. Quindi possiamo vedere qui che la maggior parte della differenza minima si ottiene per 250.8 e la frase più adatta è 1 uno.

    
posta user3149 16.03.2014 - 07:07
fonte

1 risposta

3

Se vuoi creare un valore unico per ogni frase, non provarci nemmeno, perché grazie al principio Pigeonhole , si ha la certezza di ottenere collisioni e quindi gli identificatori non saranno unici. È possibile limitare lo spazio di input di conseguenza, ma in questo caso l'algoritmo perde il suo scopo.

Se stai cercando un modo per creare un identificativo diverso da quello potrebbe indicare che le frasi sono uguali, ma non lo garantisce , quindi hashing è praticamente creato per questo scopo. Questo ti permette di controllare se le frasi possono essere uguali, ma devi comunque eseguire la funzione di uguaglianza per garantirlo.

    
risposta data 16.03.2014 - 08:02
fonte

Leggi altre domande sui tag