Criteri per scegliere quali formati di dati comuni supportare i dati tabulari in una semplice libreria ML

Question

Criteri per scegliere quali formati di dati comuni supportare i dati tabulari in una semplice libreria ML

1

Quali criteri si prendono in considerazione quando si sceglie quali formati formattare una libreria per eseguire attività di machine learning dovrebbe supportare la lettura / scrittura di tabelle (cioè non- hierarchical ) dati? Ho trovato una domanda simile su quale lingua scrivere libreria ML generica in , ma non uno per i formati di dati. Ho in mente una serie di requisiti per la biblioteca, ma non so come valutare un potenziale formato di dati in relazione a questi requisiti e come scegliere quale (i) si adatta meglio al mio uso.

Requisiti

La libreria non è progettata per essere utilizzata con qualsiasi altro programma / libreria specifico in mente, cioè non conosco già in precedenza che verrà utilizzato da es. gnuplot
La biblioteca è per la ricerca esplorativa e quindi non viene creata con una specifica applicazione "reale" in mente
La libreria deve essere una semplice libreria di elaborazione dati "input-output" (vedi la filosofia Unix )
Al momento, sarò l'utente principale della libreria ma molto probabilmente condividerò i dati con altre persone in futuro (anche se non sono ancora sicuro su chi esattamente) e intendo creare la libreria liberamente disponibile online in qualche forma, quindi è difficile dire esattamente chi utilizzerà i miei formati di dati
La quantità di dati gestiti è piuttosto grande ma non astronomica
La leggibilità umana sarebbe un vantaggio enorme in modo che le persone possano "eyeball" i dati per l'analisi / controllo degli errori
Le prestazioni non sono un problema enorme poiché non si tratta dell'elaborazione in tempo reale

libraries data

posta errantlinguist 19.04.2016 - 08:39

fonte

0 risposte

Leggi altre domande sui tag libraries data

Algoritmo per creare tutti i set univoci dell'alfabeto utilizzando dimensioni di gruppo arbitrarie problema del carrello del sistema acquisti con magazzino [duplicato]