Non sono nemmeno sicuro che la "pertinenza" sia la parola più accurata, quindi descriverò il problema:
Sto costruendo un'app che deve in qualche modo analizzare le descrizioni dei prodotti da un sito web popolare (diciamo solo che è Amazon) e capire quali certificazioni il prodotto ha basato sul testo nella descrizione da solo. Le descrizioni di questi prodotti non sono sempre scritte nello stesso modo (perché sono scritte da società diverse), ma contengono sempre determinate parole chiave che sto cercando - e le parole chiave devono essere "vicine" nella descrizione per essere considerato per il set di risultati.
Ad esempio, dati i seguenti dati CSV:
ProductName,ProductDescription
Product1,Product1 is a really cool product that is certified for Certification1 on Region1
Product2,Product2 has Region2 which has Certification3 and Region3 with Certification4. It also has Certification5
Vorrei generare il seguente output:
{
"Product1":{
"Region1":"Certification1",
"UnknownRegions": []
},
"Product2":{
"Region2":"Certification3",
"Region3":"Certification4",
"UnknownRegions":[
"Certification5"
]
}
}
Non ho quasi idea di come risolvere questo problema, a parte un pensiero: qualche algoritmo NLP può aiutarmi a ottenere l'output desiderato sopra? Se sì, quale? Ho sentito parlare di una tecnica chiamata Named Entity Extraction ma non so se si applica qui o meno.
Qualsiasi consiglio è molto apprezzato qui. Grazie in anticipo!