Sto tentando di scrivere un processo che corrisponda a stringhe oscure a una singola "stringa principale" per un'ulteriore elaborazione. Ho molti dati che assomigliano a questo:
Basketball
Basket Ball
Football
BasketBallR
BBall
BBall - r
FootB
... e così via. Questi devono essere mappati su un record master in questo modo:
Basketball = Basket Ball, BBall
Basketball - R = BasketBallR, BBall - r
Ho anche casi di dati simili a questo formato:
Football -r
FootBall - r-g/H,Q,HH
Queste situazioni devono essere separate in diverse categorie prima di essere mappate. Ad esempio FootBall - r-g/H,Q,HH
dovrebbe essere:
Football - r
Football - g
Football - H
Football - Q
Football - HH
A questo punto, deve ancora essere mappato su un record master ...
Ho provato diverse combinazioni di metodi di corrispondenza fuzzywuzzy, misurazioni Levenshtein Distance, regex, ecc. e non riesco a trovare un metodo affidabile per associare logicamente diversi stili di denominazione di un singolo oggetto con un nome principale.
Sto alzando le mani per la disperazione. Ci sono risorse Python esistenti che possono aiutare a risolvere il mio problema? Ci sono altre opzioni? Qualcuno può indicare un'opzione ovvia che avrei potuto ignorare?
Fondamentalmente, qualsiasi suggerimento, soluzione, risorsa o metodo alternativo è molto apprezzato.