Quali sarebbero le buone opzioni di architettura per l'aggregazione dei dati con più indici?

0

Abbiamo un caso d'uso in cui abbiamo bisogno di memorizzare un grande insieme (molti milioni) di dati "oggetti" con più attributi (che possono differire nel tempo / per "collezioni" diverse, ad esempio per "tipi" di oggetti diversi lì sono possibili attributi diversi), ad es.

{
  "refid":12345,
  "type":"Car"
  "color":"Red",
  "purchased":"2017-09-27 13:00:00",
  "country":"Iceland",      
  "datapoint":13.41,
}

E abbiamo bisogno di un modo per recuperare in tempo reale un sottoinsieme di questi "oggetti", filtrati da uno o più attributi (ad esempio nell'esempio sopra tutti Cars in Iceland -  restituire forse ~ 100k risultati) - o semplicemente scaricare l'intero set di risultati e / o essere in grado di elaborare il set di risultati in diversi modi (ad esempio, calcolare il datapoint medio, o quanti di essi sono nei diversi colori possibili trovati).

Quale sarebbe una buona opzione architettonica per eseguire questo molto veloce e con molti oggetti / attributi diversi? Stiamo considerando per es. Elasticsearch, Spark sopra ad es. Hadoop o Cassandra, Redshift, MongoDB con logica personalizzata per l'aggregazione ecc.

Siamo in grado di fornire l'archivio dati (qualunque esso sia) alla rinfusa, in modo che l'attenzione sia sulla lettura (non sulla capacità di scrittura) - restituisce un ampio set di risultati da un grande set di dati e probabilmente esegue rapidamente calcoli su quel set di risultati.

    
posta Peder 27.09.2017 - 19:57
fonte

0 risposte

Leggi altre domande sui tag