Sto pensando a un modo per trovare parti simili in Stringhe. Ho un set di stringhe di lunghezza variabile, cioè:
- Il quick brown fox salta
- fox force five
- il coniglio è molto più veloce della volpe
- è
Per prima cosa, ho pensato solo a tokenizzare le stringhe e contare i token, ma nel caso di "quick" qui devo anche abbinare "più veloce".
Quindi l'output dovrebbe essere qualcosa del genere (una mappatura dei token al conteggio, se il conteggio è 1 è omesso):
{
"the": 3,
"fox": 3,
"quick": 2,
"is": 2
}
Il caso d'uso è il seguente:
L'utente raggruppa le stringhe in categorie, l'obiettivo è di fornire suggerimenti per una nuova stringa a quale categoria potrebbe appartenere. Quindi l'idea era di cercare tutte le stringhe correnti in una categoria per parole chiave come questa.