Controllo versione per diversi progetti

1

Ho trovato diverse cose su come gestire un progetto di scienza dei dati con GIT, ma non ho trovato nulla su come gestire un insieme di progetti.

Nel 90% del caso sto lavorando da solo e nel corso del mese molte persone mi chiedono di controllare:

  • la performance delle nostre operazioni di marketing
  • l'impatto sulle vendite di periodi speciali come Natale
  • clustering dei nostri clienti
  • semplici modelli predittivi (abbandono, ...)

Ecco il mio tipico flusso di lavoro per un singolo progetto:

  1. Prepara i dati in SQL
  2. Realizza analisi descrittive e predittive in R / Python. Uso spesso la mia propria libreria di codice che aggiorno nel tempo
  3. Crea risultati di output in una presentazione Markdown o PowerPoint.

Ecco l'organizzazione della cartella per ogni progetto:

  1. Dati
    • di base
    • trattati
  2. Script

  3. Script Python

  4. Output (figure, markdown, powerpoint, ...)

E due librerie di codice in R e Python che uso per tutte le analisi

Domanda: in questo caso qual è la strategia migliore?

  1. Un singolo repository con tutte le analisi perché le librerie sono condivise tra più analisi?

Se sì, è ok avere una dozzina di filiali nello stesso repository come:

  • R_library_prod
  • R_library_dev
  • Python_library_prod
  • Python_library_dev
  • clustering_2015_prod
  • clustering_2015_dev
  • christmas_sales_analysis_prod
  • christmas_sales_analysis_dev
  • e così via

    1. Un repository per ogni progetto? (con potenzialmente solo 2 diramazioni: prod e dev)

Se sì, come gestire gli aggiornamenti delle librerie R e Python? Dovrei avere un repository distinto per loro e aggiorna le librerie manualmente nei repository dei progetti di analisi?

    
posta Vadi 11.06.2015 - 22:17
fonte

0 risposte

Leggi altre domande sui tag