Per migliorare alcune ricerche, sto prendendo in considerazione l'uso di Bloom Filters. Ma nel mio caso d'uso, il risultato più probabile è che l'elemento esista nel set di destinazione.
I filtri Bloom possono avere falsi positivi, ma non falsi negativi. Questo mi farebbe controllare la memoria reale (grande e lento) la maggior parte del tempo a causa delle incertezze.
Esiste un'altra struttura algoritmo / dati con le stesse proprietà per lo spazio e la velocità di calcolo (e il parallelismo della query) che non può garantire falsi positivi e una bassa probabilità di falsi negativi?
(La dimensione massima del set sarà di circa 300k elementi, gli elementi saranno stringhe di, al massimo, 512 caratteri, e avrò centinaia di set come quello.)