Diversi governi stanno iniziando a pubblicare dati aperti : set di dati generati dal governo, resi disponibili gratuitamente ai cittadini per lo sviluppo, l'analisi e il feedback delle app a valore aggiunto. Ad esempio, il City Data di Vancouver (Canada) Open Data Catalog pubblica 130 set di dati. L'argomento varia dai file tabulari delle informazioni di contatto del consigliere comunale ai dataset geografici dei distretti di zonizzazione. I formati vanno da Comma-Separated Value (CSV) a SHP a KML e oltre.
Sarebbe bello per ciascuno di questi portali di dati aperti avere un set di dati di set di dati: il loro catalogo di set di dati in forma di file di dati strutturati. Il set di dati del catalogo dovrebbe avere metadati che descrivono ogni set di dati (nome del set di dati, URL della pagina di download, i formati in cui è disponibile il set di dati, forse una descrizione del formato del set di dati e attributi o URL dello stesso.
Che cos'è un buon modello di dati e un buon formato per un set di dati del catalogo di questo tipo? Se questo è un problema risolto, vorrei suggerire che Vancouver riutilizzi quella soluzione, invece di inventarne una.
Aggiornamento : in risposta alla domanda, perché è desiderabile avere un catalogo come un set di dati strutturato, posso pensare a tre classi di casi d'uso.
-
Analisi su tutti i set di dati di un fornitore di dati. È comodo ottenere un elenco di tutti i set di dati, con collegamenti a descrizioni ecc., Che posso importare in un foglio di calcolo e annotare. Qualcun altro potrebbe voler contare il numero totale di record pubblicati o l'ampiezza dell'attività governativa coperta dai dati. Nel mio caso, sto lavorando a un Censimento della lingua di Vancouver Open Data .
-
Analisi dei set di dati corrispondenti su più fornitori di dati. Ad esempio, si potrebbe desiderare di aggregare un elenco di tutti i set di dati del bordo di zonazione pubblicati dalle città canadesi. È più facile se si può setacciare gli elenchi di set di dati per macchina anziché a mano.
-
L'analisi del catalogo di set di dati cambia nel tempo. Potrebbe essere interessante analizzare la crescita degli Open Data da un anno all'altro. I cataloghi strutturati semplificano l'automatizzazione.