Come si verifica un carico di dati?

2

Sto lavorando a un progetto che prevede il caricamento di batch di oltre 3000 file in diverse dozzine di tabelle. Non esiste un'interfaccia utente e le tabelle sono semplicemente disponibili per l'interrogazione. Quali sono le migliori pratiche per testare questo tipo di processo?

  • Caricamento di un piccolo insieme di dati e convalida di ogni singolo membro?
  • Caricamento di tutti i dati e convalida di un sottoinsieme?
  • Caricamento di tutti i dati e convalida conteggi, medie e altre metriche?

Ci sono altri tipi di test che possono essere eseguiti o una combinazione migliore?

    
posta C. Ross 28.12.2011 - 16:32
fonte

4 risposte

1

Vorrei creare due (serie di) casi di test. Una che viene eseguita spesso, è veloce e valida solo statisticamente e un'altra che viene eseguita meno spesso (a seconda del programma del progetto, ogni settimana o mese) ma controlla tutti i dati.

Il test rapido importerà tutti i dati, quindi controlla:

  1. il numero di record
  2. prendi un certo numero di record e controlla la loro integrità (scegli tutti i record K in cui K potrebbe essere qualcosa come number of records / 100 )
  3. se hai colonne che supportano operazioni di aggregazione che si eseguono rapidamente, potresti voler controllare anche quelle nei test rapidi.

Per il test che viene eseguito meno spesso esegui un controllo di integrità completo eseguendo i confronti 1-1 o calcolando gli hash.

    
risposta data 28.12.2011 - 18:04
fonte
2

Il modo per testare l'integrità dei dati è molto semplice:

  1. Carica il file utilizzando qualsiasi metodo tu scelga.
  2. L'uso delle query consente di ricostituire il file.
  3. Confronta i 2 file. (md5sum come misura più semplice)

Poiché stai caricando più di 3000 file in una dozzina di tabelle, avrai bisogno di un modo per identificare il set che hai appena caricato. E la semplice formattazione dei file renderebbe il lavoro più semplice ma è l'unico modo in cui posso vederti verificare che il caricamento sia stato eseguito correttamente.

    
risposta data 28.12.2011 - 16:45
fonte
1

Penso che tu voglia due tipi di test:

  • il set "positivo" che è un campione di dati sufficienti per convalidare lo strumento
  • il set "negativo" che consiste in casi di campioni isolati dei casi limite che hanno rotto le cose e sono stati risolti. Questi dovrebbero essere costruiti nel tempo.

La strategia presuppone condizioni del mondo reale come specifiche inadeguate e cattiva igiene dei dati.

    
risposta data 29.12.2011 - 10:06
fonte
0

Suppongo che dipenda da quali altri controlli di convalida hai nel processo che utilizza effettivamente i dati in questi file

Se contiene la propria convalida, eseguirò un controllo rapido sulle prime righe di ciascun file per verificare che sia nel formato corretto.

Se non ha alcuna convalida, eseguirò un controllo completo sulla convalida dei file in modo che il processo che utilizza i dati possa essere eseguito senza problemi.

Personalmente preferisco il primo metodo per aggiungere la convalida nel processo che utilizzerà i dati e fare una convalida rapida all'importazione.

    
risposta data 28.12.2011 - 16:50
fonte

Leggi altre domande sui tag