Abbiamo un ampio set di coppie chiave-valore esistenti (ad esempio specifiche del prodotto). Un esempio inventato potrebbe essere:
Prod 1, LOGO, The standard 1990 Audi logo is located in the center of the grille.
Prod 2, LOGO, The standard 2010 Volkswagen logo is located in the upper right corner of the trunk
Prod 3, LOGO, The standard 2005 Porche logo is located in the center of the hood, near the front.
Prod 4, ENGINE, The 2016 Volvo comes standard with a 2.8 litre v6 engine.
Prod 1, ENGINE, The 2016 Audi comes standard with a 1.8 litre v6 engine.
Prod 1, OTHER, blah blah this is a one-off spec that isn't found nearly as commonly as the others.
Quindi ci sarebbero molte migliaia di queste, tutte le diverse specifiche (non solo LOGO
), ecc., ma puoi vedere che per la voce di elenco di esempio, ci sono parti comuni trovate nella stringa "valore".
Alcune delle specifiche, ad es. LOGO
e ENGINE
verrebbero trovati per quasi tutti i prodotti e la verbosità di ognuno di questi è generalmente coerente. Altri come OTHER
sarebbero rari.
Sto cercando di progettare un processo che:
- esamina l'elenco esistente di coppie chiave-valore (ad esempio specifiche del prodotto)
- trova i verbali più comuni per ogni specifica in base alla stringa di valori con le parti variabili mascherate ...
Il risultato (basato sull'esempio impostato sopra) assomiglia a qualcosa di simile:
LOGO, The standard _____ logo is located in the _____ of the _____. (occurs 3 times in the list above)
ENGINE, The _____ comes standard with a _____ engine. (occurs 3 times)
OTHER, blah blah this is a one-off spec that isn't found nearly as commonly as the others. (this one wouldn't have any words replaced with blanks since it only occurs once or just a few times (occurs 1 time)
Non ci sono maschere di valore di default esistenti ora, quindi non c'è nulla che possa usare per sapere quali parole / posizioni hanno valori variabili (come marca, modello, tipo di motore, ecc. dell'esempio).
Quale approccio o logica posso applicare al set esistente di valori di specifiche per trovare le parti comuni del fraseggio per ogni specifica?
L'obiettivo finale è quello di ricavare un insieme di frasi predefinite comuni per ogni "chiave" specifica in base alle migliaia di voci che già esistono E.G. alla fine dovrei avere una lista che mi mostrerebbe che "il modello di verbiage più comune per LOGO
è The standard _____ logo is located in the _____ of the _____.
" ecc.
Altre utili informazioni:
- Le prestazioni non sono un problema
- Questa sarebbe una procedura unica
- Sarebbe eseguito su una macchina dedicata senza preoccuparsi di utilizzare troppa memoria altre risorse ecc.
Spero di averlo spiegato abbastanza bene. Fammi sapere se ha bisogno di maggiori dettagli.