Qual è un buon formato per documentare centinaia di feed di dati?

3

Diversi governi stanno iniziando a pubblicare dati aperti : set di dati generati dal governo, resi disponibili gratuitamente ai cittadini per lo sviluppo, l'analisi e il feedback delle app a valore aggiunto. Ad esempio, il City Data di Vancouver (Canada) Open Data Catalog pubblica 130 set di dati. L'argomento varia dai file tabulari delle informazioni di contatto del consigliere comunale ai dataset geografici dei distretti di zonizzazione. I formati vanno da Comma-Separated Value (CSV) a SHP a KML e oltre.

Sarebbe bello per ciascuno di questi portali di dati aperti avere un set di dati di set di dati: il loro catalogo di set di dati in forma di file di dati strutturati. Il set di dati del catalogo dovrebbe avere metadati che descrivono ogni set di dati (nome del set di dati, URL della pagina di download, i formati in cui è disponibile il set di dati, forse una descrizione del formato del set di dati e attributi o URL dello stesso.

Che cos'è un buon modello di dati e un buon formato per un set di dati del catalogo di questo tipo? Se questo è un problema risolto, vorrei suggerire che Vancouver riutilizzi quella soluzione, invece di inventarne una.

Aggiornamento : in risposta alla domanda, perché è desiderabile avere un catalogo come un set di dati strutturato, posso pensare a tre classi di casi d'uso.

  1. Analisi su tutti i set di dati di un fornitore di dati. È comodo ottenere un elenco di tutti i set di dati, con collegamenti a descrizioni ecc., Che posso importare in un foglio di calcolo e annotare. Qualcun altro potrebbe voler contare il numero totale di record pubblicati o l'ampiezza dell'attività governativa coperta dai dati. Nel mio caso, sto lavorando a un Censimento della lingua di Vancouver Open Data .

  2. Analisi dei set di dati corrispondenti su più fornitori di dati. Ad esempio, si potrebbe desiderare di aggregare un elenco di tutti i set di dati del bordo di zonazione pubblicati dalle città canadesi. È più facile se si può setacciare gli elenchi di set di dati per macchina anziché a mano.

  3. L'analisi del catalogo di set di dati cambia nel tempo. Potrebbe essere interessante analizzare la crescita degli Open Data da un anno all'altro. I cataloghi strutturati semplificano l'automatizzazione.

posta Jim DeLaHunt 02.03.2013 - 07:57
fonte

2 risposte

1

Penso che tu stia parlando di un problema di presentazione (un elenco coerente di tutti i dati forniti) piuttosto che di un problema di modellazione dei dati.

Qualsiasi sviluppatore di software "OK", con un linguaggio almeno in qualche modo maturo, sarà in grado di elaborare CSV, XML, JSON, qualsiasi tonalità di diverso tipo di formato di dati \ modello.

Perché pensi che questi dati dovrebbero essere strutturati? Chi e per cosa qualcuno avrebbe bisogno di tali dati in un formato leggibile dalla macchina?

Non è come i dati aperti con migliaia di righe, tabelle, ecc. sono dati che devi scansionare o trovare automaticamente. Trovare il giusto "link per il download" come dici tu è una cosa da fare una volta sola. Perché dovrebbe essere automatizzato \ strutturato \ leggibile dalla macchina?

Chiedi loro di creare un elenco con link e descrizioni e di renderlo una pagina Web, che altro hai bisogno?

    
risposta data 02.03.2013 - 09:52
fonte
1

Suggerisci guardando link .

Ho anche notato che il software Catalogo dati / Portale come link (che fornisce ad esempio data.gov.uk) fornisce un'API per ottenere tutto il set di dati in un formato standard.

    
risposta data 23.03.2013 - 10:03
fonte

Leggi altre domande sui tag