Ho uno strumento di sintesi scritto in python che legge i file di input e li scrive in un file di riepilogo. Ho le seguenti condizioni:
- Nessun duplicato.
- Se esiste, aggiungici un conteggio.
È meglio / più veloce scrivere un file di output GIGANTE POI deduplicare le voci o deduplicare mentre si va (vale a dire, ogni comando di scrittura controlla prima di scrivere)?
I file piccoli sono circa 100-300k ciascuno, ci possono essere centinaia di migliaia di questi e il file di output finale è in genere 1-4 MB.
Una riga di esempio nel file sarebbe simile a questa:
String,number
Vorrei controllare la stringa per i duplicati. Se fosse un dupe, vorrei produrre:
string,COUNT,number(additive)
come in, continuerei ad aggiungere i numeri ogni volta che otterrei un duplicato e a tenere conto di quante volte è stato duplicato.
Direi che ci sono principalmente duplicati.