Voglio identificare la maggior parte della frase corrispondente usando un pattern. Ciò significa che utilizzando l'algoritmo java voglio creare un valore identico per ogni frase. Ogni frase quando si entra in quell'algoritmo può essere fuori un qualche tipo di valore identico. Come posso svilupparlo? Cosa posso riferire a siti Web che conosci? Che tipo di siti dovrei cercare? In realtà voglio chiarire quando sto dando come ex: 5 frase all'algoritmo che è possibile generare un qualche tipo di 5 valori. Poi mi confronto con quei valori con valori precedentemente generati (dovrei memorizzare questi valori nel mio database) e ottenere il divario tra il nuovo valore 5 e i valori precedentemente memorizzati. Poi ottengo la distanza e ho selezionato la frase più adatta come il valore di gap più basso.
Uso queste cose per il mio strumento di traduzione automatica. Ad esempio pensiamo che l'utilizzo del mio modello di traduzione basato su regole genera 2 frasi. 1. Voglio mangiare una mela. 2. Voglio mangiare una casa. Nel mio corpus pensiamo che più frasi includano e memorizzo i valori per le frasi nel mio database. (La parte assegnata al valore è che non lo so ancora) Voglio creare un algoritmo java per assegnare valore per ogni frase. Ad esempio se pensiamo Valore frase 1: 250,8 Valore frase 2: 290.5
Database inclusi valori 248, 400,800 Poi ho ottenuto la differenza. Quindi possiamo vedere qui che la maggior parte della differenza minima si ottiene per 250.8 e la frase più adatta è 1 uno.