Raccolta di dati sportivi da molte fonti in molti formati

1

Sto cercando di risolvere un problema che esiste per uno sport. Lo sport è frammentato in molte federazioni e ciascuna federazione è completamente isolata dalle altre federazioni. Lo sport è lo stesso per ogni federazione. Il problema che sto cercando di risolvere è quello di aggregare tutti i dati di ciascuna delle federazioni (circa 10 di essi) in un singolo archivio dati.

Questo è un problema molto importante da risolvere perché quando vuoi sapere "chi è il migliore", devi trovare tutte le federazioni esistenti e fare un riferimento incrociato con i record di altre federazioni.

I dati stessi sono gli stessi in ogni federazione, tranne per il fatto che ogni federazione ha il proprio formato e non è nemmeno coerente all'interno della federazione, ma cambia nel tempo. Anche i dati non vengono memorizzati bene, per lo più sono memorizzati in fogli di lavoro xlsx che puoi scaricare, a volte anche file PDF.

La mia naturale inclinazione è scrivere un parser (10 di essi) e raschiare i dati e pubblicarli nell'unico archivio centrale di dati. Un problema qui è che il modo in cui questi siti memorizzano i loro dati cambia nel tempo, così ogni federazione potrebbe aver avuto un formato completamente diverso per i loro fogli di calcolo / PDF nel corso degli anni. Quindi, ad esempio, il requisito potrebbe passare dalla scrittura di 10 parser personalizzati a 50 (5 per ogni federazione). Per non parlare di eventuali cambiamenti in futuro. Non lo vedo come mantenibile.

La mia unica altra idea è quella di analizzare i dati più recenti (che sono in un formato coerente) su ciascun sito, per ottenere alcuni dati iniziali nel mio negozio, quindi provare a promuovere il mio sito e far lavorare le altre federazioni con me per inviarmi i dati in un unico formato. Oppure potrei consentire agli utenti di pubblicare i dati stessi (dovrei avere un processo di revisione, quindi probabilmente non sarebbe meglio che farlo manualmente).

Quello che sto cercando sono altri approcci che non sto considerando che potrebbero aiutarmi a risolvere questo problema?

Mi rendo conto che questa è una domanda molto aperta e basata sull'opinione pubblica, quindi mi scuso se la domanda non appartiene a questo.

    
posta James 19.09.2017 - 21:16
fonte

0 risposte

Leggi altre domande sui tag