Milioni di dati di posizione stanno arrivando in un sistema che deve essere memorizzato in un database. I dati arrivano in formati delimitati da tubi in file flat, su base regolare dicono due volte al giorno. E, soprattutto, su un milione di record solo il 5% avrebbe alcun cambiamento. Altri record rimangono gli stessi del feed precedente. Suggerire una strategia ottimale per inserire rapidamente questi dati nel database. Considera che solo il 5% dei dati in entrata avrebbe delle modifiche rispetto alla versione precedente nel database.
Ho controllato una domanda simile come discusso qui . Ma riguarda l'operazione di inserimento in blocco, che può essere eseguita prima con il chunking e poi con l'inserimento bulk su DB.
Ma l'idea qui è di scoprire in qualche modo se alcuni record sono davvero cambiati, se sì, quindi solo inserire o aggiornare, altrimenti basta lasciare quel record. In questo modo potrebbe risparmiare molto tempo.
Qualche suggerimento?