Sto cercando alcune informazioni su come aumentare le prestazioni di lettura di file di testo di grandi dimensioni da utilizzare in un processo ETL.
Al momento utilizziamo un programma proprietario che è più di un linguaggio di scripting che viene convertito in C ++ e compilato in un eseguibile. L'unico fattore che riscatta questo programma è la sua capacità di scorrere un file di 19gig e popolare più di 250 campi molto rapidamente.
Dove si impantana sono le trasformazioni che, a causa della natura dello scripting, tendono ad essere inefficienti, ingombranti e difficili da mantenere.
Sono in grado di analizzare il file di testo usando .NET (VB o C #) ma non riesco nemmeno a avvicinarmi all'efficienza del C ++ per leggere il file, letteralmente ore o minuti.
Ho anche preso in considerazione l'utilizzo del data warehouse che carica lo stesso estratto che sto leggendo, ma per qualche motivo il team del data warehouse ha creato una grande tabella che contiene milioni di righe e tutti i 250 campi. Poiché ho bisogno di circa 150 dei campi per le trasformazioni, le query sono eccessivamente lente.