Criteri per scegliere quali formati di dati comuni supportare i dati tabulari in una semplice libreria ML

1

Quali criteri si prendono in considerazione quando si sceglie quali formati formattare una libreria per eseguire attività di machine learning dovrebbe supportare la lettura / scrittura di tabelle (cioè non- hierarchical ) dati? Ho trovato una domanda simile su quale lingua scrivere libreria ML generica in , ma non uno per i formati di dati. Ho in mente una serie di requisiti per la biblioteca, ma non so come valutare un potenziale formato di dati in relazione a questi requisiti e come scegliere quale (i) si adatta meglio al mio uso.

Requisiti

  • La libreria non è progettata per essere utilizzata con qualsiasi altro programma / libreria specifico in mente, cioè non conosco già in precedenza che verrà utilizzato da es. gnuplot
  • La biblioteca è per la ricerca esplorativa e quindi non viene creata con una specifica applicazione "reale" in mente
  • La libreria deve essere una semplice libreria di elaborazione dati "input-output" (vedi la filosofia Unix )
  • Al momento, sarò l'utente principale della libreria ma molto probabilmente condividerò i dati con altre persone in futuro (anche se non sono ancora sicuro su chi esattamente) e intendo creare la libreria liberamente disponibile online in qualche forma, quindi è difficile dire esattamente chi utilizzerà i miei formati di dati
  • La quantità di dati gestiti è piuttosto grande ma non astronomica
  • La leggibilità umana sarebbe un vantaggio enorme in modo che le persone possano "eyeball" i dati per l'analisi / controllo degli errori
  • Le prestazioni non sono un problema enorme poiché non si tratta dell'elaborazione in tempo reale
posta errantlinguist 19.04.2016 - 10:39
fonte

0 risposte

Leggi altre domande sui tag