Dedupe while o after write

Question

Dedupe while o after write

0

Ho uno strumento di sintesi scritto in python che legge i file di input e li scrive in un file di riepilogo. Ho le seguenti condizioni:

Nessun duplicato.
Se esiste, aggiungici un conteggio.

È meglio / più veloce scrivere un file di output GIGANTE POI deduplicare le voci o deduplicare mentre si va (vale a dire, ogni comando di scrittura controlla prima di scrivere)?

I file piccoli sono circa 100-300k ciascuno, ci possono essere centinaia di migliaia di questi e il file di output finale è in genere 1-4 MB.

Una riga di esempio nel file sarebbe simile a questa:

String,number

Vorrei controllare la stringa per i duplicati. Se fosse un dupe, vorrei produrre:

string,COUNT,number(additive)

come in, continuerei ad aggiungere i numeri ogni volta che otterrei un duplicato e a tenere conto di quante volte è stato duplicato.

Direi che ci sono principalmente duplicati.

coding parsing speed

posta Jeff 18.04.2014 - 20:12

fonte

0 risposte

Leggi altre domande sui tag coding parsing speed

Contenuto generato dall'utente e protezione Hotlink App proprietaria di Android che include il codice di licenza Apache-2.0 di Google