Quali criteri si prendono in considerazione quando si sceglie quali formati formattare una libreria per eseguire attività di machine learning dovrebbe supportare la lettura / scrittura di tabelle (cioè non- hierarchical ) dati? Ho trovato una domanda simile su quale lingua scrivere libreria ML generica in , ma non uno per i formati di dati. Ho in mente una serie di requisiti per la biblioteca, ma non so come valutare un potenziale formato di dati in relazione a questi requisiti e come scegliere quale (i) si adatta meglio al mio uso.
Requisiti
- La libreria non è progettata per essere utilizzata con qualsiasi altro programma / libreria specifico in mente, cioè non conosco già in precedenza che verrà utilizzato da es. gnuplot
- La biblioteca è per la ricerca esplorativa e quindi non viene creata con una specifica applicazione "reale" in mente
- La libreria deve essere una semplice libreria di elaborazione dati "input-output" (vedi la filosofia Unix )
- Al momento, sarò l'utente principale della libreria ma molto probabilmente condividerò i dati con altre persone in futuro (anche se non sono ancora sicuro su chi esattamente) e intendo creare la libreria liberamente disponibile online in qualche forma, quindi è difficile dire esattamente chi utilizzerà i miei formati di dati
- La quantità di dati gestiti è piuttosto grande ma non astronomica
- La leggibilità umana sarebbe un vantaggio enorme in modo che le persone possano "eyeball" i dati per l'analisi / controllo degli errori
- Le prestazioni non sono un problema enorme poiché non si tratta dell'elaborazione in tempo reale