Se ho n
di righe in un database e voglio confrontare ogni riga una contro l'altra, quanti loop (o processi) dovrei fare.
È n 2 ? (quindi se avessi 30.000 file allora sarebbe 900.000.000)
O è:
for (i = 0; i < 30000; i++) {
for (j = i + 1; j < 30000; j++) [
// Process
}
}
Se è il più tardi, quanti processi è (e c'è un'equazione per risolverlo, dato n
)?
Inoltre, se devo elaborare ogni riga y
volte, in che modo influisce sui calcoli?
Devo controllare un database di aziende per possibili duplicati. Per verificare, desiderano eseguire un controllo di similarità su campi comuni come nome dell'azienda, numero di telefono, ecc. Se una differenza di campo è inferiore a una determinata soglia percentuale, contrassegnarla come possibile duplicato. Posso codificare questo bene da solo, ma sono curioso di vedere le sue conseguenze.