Dedupe while o after write

0

Ho uno strumento di sintesi scritto in python che legge i file di input e li scrive in un file di riepilogo. Ho le seguenti condizioni:

  1. Nessun duplicato.
  2. Se esiste, aggiungici un conteggio.

È meglio / più veloce scrivere un file di output GIGANTE POI deduplicare le voci o deduplicare mentre si va (vale a dire, ogni comando di scrittura controlla prima di scrivere)?

I file piccoli sono circa 100-300k ciascuno, ci possono essere centinaia di migliaia di questi e il file di output finale è in genere 1-4 MB.

Una riga di esempio nel file sarebbe simile a questa:

String,number

Vorrei controllare la stringa per i duplicati. Se fosse un dupe, vorrei produrre:

string,COUNT,number(additive)

come in, continuerei ad aggiungere i numeri ogni volta che otterrei un duplicato e a tenere conto di quante volte è stato duplicato.

Direi che ci sono principalmente duplicati.

    
posta Jeff 18.04.2014 - 22:12
fonte

0 risposte

Leggi altre domande sui tag