Ho test di unità più piccoli che utilizzano piccoli frammenti di dati reali. Vorrei anche testare il mio programma contro set di dati completi per una moltitudine di motivi. L'unico problema è che un singolo dataset reale è circa ~ 5 GB. Non ho trovato nessun numero difficile per quello che i repository Git possono archiviare ma sembra troppo.
La soluzione che il mio team ha adottato è che il progetto ha un file che contiene un percorso per un file system collegato alla rete che contiene i nostri dati di test. Il file è ignorato.
Ritengo che questa sia una soluzione imperfetta per due motivi. Quando il NAS non funziona, è lento o è inattivo di quanto non sia possibile eseguire un test completo. La seconda ragione è che quando qualcuno per prima cosa clona un repository, l'unit test fallisce, quindi devono capire come montare le cose con un certo nome e la sintassi usata per costruire il file del percorso di test.
Quindi la mia domanda è due volte. Quanti dati sono troppi dati da memorizzare nel controllo di revisione?
Che cos'è un modo migliore per gestire grandi quantità di dati di test?