Ho un'enorme serie temporale (circa 30 milioni) di percorsi di rete con il seguente formato:
timestamp, path, latency
Il percorso è una sequenza di indirizzi IP, quindi può essere rappresentato come una stringa o una matrice di numeri interi. Attualmente i dati sono memorizzati in file di testo, il che rende molto lenta l'analisi e l'interrogazione dei percorsi. Mi è stato suggerito di utilizzare un database di timeseries (TSDB), come InfluxDB o OpenTSDB, per memorizzarli in modo efficiente, ma alcune letture di background che ho fatto suggeriscono che i TSDB sono appropriati per valori numerici. Ad esempio, OpenTSDB menziona:
OpenTSDB is a time series database. A time series is a series of numeric data points of some particular metric over time.
C'è qualche ottimizzazione che otterrò dall'usare un TSDB invece di un DB relazionale nel mio caso, e in generale per gli timeseries che includono valori non numerici?
Le domande principali che ho intenzione di fare sono fondamentalmente ottenere tutti i percorsi tra due timestamp, controllare se ci sono cambiamenti di percorso e come questi cambiamenti influenzano la struttura. Inoltre, potrebbe essere necessario cercare il percorso con hop specifici (ad esempio selezionare tutti i record in cui il percorso include l'IP hop 1.2.3.4
) o tutti i percorsi con latenza su una determinata soglia.