Ho una situazione in cui voglio tenere traccia delle visualizzazioni di pagina, fare clic sugli eventi, ecc. in un database di serie temporali, ma ho problemi di scalabilità nel caso in cui voglio recuperare gruppi aggregati di dati con cardinalità molto elevata.
I problemi che sto cercando di risolvere sono:
Quali sono i principali referrer N in un determinato intervallo di tempo?
Quante visualizzazioni ha un URL per ogni URL in un determinato intervallo di tempo?
Quante visualizzazioni hanno URL specifici per tutto il tempo?
Lo schema che ho finora è:
timestamp
- Ora dell'evento
domain
- L'URL di base per il record
uri
- La risorsa univoca. Vorrebbe contare i conteggi raggruppati di questi (milioni di valori possibili)
referrer
- il referrer HTTP. Conteggi raggruppati anche di questi (milioni di valori possibili)
event
- Il tipo di evento
Finora ho provato a utilizzare InfluxDB, ma ho scoperto problemi dovuti alla mera quantità di valori possibili per uri
e referrer
. Sebbene io stia effettuando la scansione solo per un record entro un intervallo di tempo limitato, il raggruppamento per milioni di valori possibili rende tutto molto più difficile. Quali altre opzioni devo memorizzare i dati che supportano entrambi i requisiti di scrittura / query?