Ho alcuni file di dimensioni ~ 64 GB che penso mi piacerebbe convertire in formato hdf5. Mi stavo chiedendo quale sarebbe l'approccio migliore per farlo? La lettura linea per linea sembra richiedere più di 4 ore, quindi stavo pensando di usare il multiprocessing in sequenza, ma speravo in qualche direzione su quale sarebbe stato il modo più efficiente senza ricorrere al hadoop. Qualsiasi aiuto sarebbe molto apprezzato. (e grazie in anticipo)
EDIT:
In questo momento sto solo facendo un approccio for line in fd:
. Dopodiché, ora controllo solo per assicurarmi di scegliere il giusto tipo di dati, che è molto breve; Non sto scrivendo da nessuna parte e ci vogliono circa 4 ore per completarlo. Non riesco a leggere blocchi di dati perché i blocchi in questo strano formato di file che sto leggendo non sono standard, cambiano tra tre diverse dimensioni ... e puoi solo dirlo leggendo i primi caratteri del blocco.