Ho trovato diverse cose su come gestire un progetto di scienza dei dati con GIT, ma non ho trovato nulla su come gestire un insieme di progetti.
Nel 90% del caso sto lavorando da solo e nel corso del mese molte persone mi chiedono di controllare:
- la performance delle nostre operazioni di marketing
- l'impatto sulle vendite di periodi speciali come Natale
- clustering dei nostri clienti
- semplici modelli predittivi (abbandono, ...)
Ecco il mio tipico flusso di lavoro per un singolo progetto:
- Prepara i dati in SQL
- Realizza analisi descrittive e predittive in R / Python. Uso spesso la mia propria libreria di codice che aggiorno nel tempo
- Crea risultati di output in una presentazione Markdown o PowerPoint.
Ecco l'organizzazione della cartella per ogni progetto:
- Dati
- di base
- trattati
-
Script
-
Script Python
-
Output (figure, markdown, powerpoint, ...)
E due librerie di codice in R e Python che uso per tutte le analisi
Domanda: in questo caso qual è la strategia migliore?
- Un singolo repository con tutte le analisi perché le librerie sono condivise tra più analisi?
Se sì, è ok avere una dozzina di filiali nello stesso repository come:
-
R_library_prod
-
R_library_dev
-
Python_library_prod
-
Python_library_dev
-
clustering_2015_prod
-
clustering_2015_dev
-
christmas_sales_analysis_prod
-
christmas_sales_analysis_dev
-
e così via
- Un repository per ogni progetto? (con potenzialmente solo 2 diramazioni: prod e dev)
Se sì, come gestire gli aggiornamenti delle librerie R e Python? Dovrei avere un repository distinto per loro e aggiorna le librerie manualmente nei repository dei progetti di analisi?