Ho una serie di record per le offerte (esempio sotto in JSON). Vorrei memorizzare questi dati in un database relazionale (Postegresql), tuttavia i dati del fornitore non sono forniti con ID e ci saranno alcune voci che devono essere deduplicate. Ad esempio, nell'esempio seguente, "John Smith and Associates" è elencato sotto diversi nomi simili come fornitore.
Devo dare a ciascun fornitore un ID univoco (anche quelli con i nomi corrispondenti) e quindi deduplicare dopo che il db è stato compilato, o farlo durante l'aggiunta di voci al database?
[
{
"Solicitation No": "B2342",
"Issuing Organization": "VT Timber Sales",
"Award Date": "2017/06/29",
"Supplier_details": [{
"Successful Supplier(s)": "John Smith & Associates",
"Supplier City": "Georgetown",
"Award Total": "$22034.13"
}]
},
{
"Solicitation No": "B2344",
"Issuing Organization": "VT Timber Sales",
"Award Date": "2017/06/30",
"Supplier_details": [{
"Successful Supplier(s)": "John Smith & Assoc",
"Supplier City": "Georgetown",
"Award Total": "$5034.13"
},
{
"Successful Supplier(s)": "Some Logging ltd.",
"Supplier City": "Georgetown",
"Award Total": "$1034.13"
}]
}, (...)