Raccomando di conservare i dati in HDFS e convertirli nel formato di file Parquet . Parquet utilizza una rappresentazione concisa e colonnare di dati nidificati e ridurrà l'I / O richiesto per molte delle tue query.
Una volta che i tuoi dati sono nel formato Parquet, utilizzerei Impala per pubblicare query SQL sui dati. Impala implementa un motore di esecuzione altamente efficiente per query SQL su dati archiviati in HDFS. Le query Impala restituiranno risultati nella dashboard con bassa latenza. A differenza di Hive, il motore di esecuzione Impala non si basa sull'implementazione MapReduce di Hadoop.
Se disponi di dati di testo che desideri visualizzare nella dashboard, ti consigliamo Ricerca Cloudera per indicizzarlo. Cloudera Search è una versione di Solr Cloud che archivia e serve indici Lucene partizionati su HDFS.
È piuttosto banale installare Impala e Search con Cloudera Manager . Cloudera Manager è uno strumento software gratuito che fornisce una GUI nel browser per l'installazione e la gestione di Cloudera e dei relativi software di terze parti. Se installi e gestisci il tuo cluster con Cloudera Manager, non devi preoccuparti di ottimizzare la configurazione o garantire la compatibilità tra versioni diverse tra HDFS, Parquet e Impala.
Per provare il tuo nuovo cluster, potresti utilizzare Cloudera Manager per installare Hue . Hue fornisce una GUI basata sul Web per gli utenti finali di Cloudera e dei relativi software di terze parti. Da Hue puoi esplorare i dati in HDFS e pubblicare query di ricerca SQL o parole chiave sui tuoi dati.
Per un esempio di dashboard interattivo creato con D3 che utilizza Cloudera Impala e Search sul back-end, controlla Zoomdata . Questo video è una meravigliosa dimostrazione delle capacità interattive di Impala e Search.
Se desideri utilizzare Tableau, Cloudera crea connettore per Tableau disponibile che funziona con Impala.
Si noti che il già prestazioni eccezionali di Impala per piccoli set di dati saranno aiutati dalla prossima cache in memoria che viene aggiunto a HDFS con la nostra prossima versione.