Il modo migliore per implementare una dashboard dai dati in HDFS / Hadoop [chiuso]

2

Abbiamo una serie di dati (diversi TB) in Hadoop HDFS ed è in crescita. Vogliamo creare una dashboard che riporta i contenuti in essa contenuti, ad esempio conteggi di diversi tipi di oggetti, tendenze nel tempo ecc.

Il nostro primo pensiero è stato quello di utilizzare qualcosa come Oracle Tableau o d3.js e utilizzare le query Hive. Ma Hive è troppo dannatamente lento per queste query "precurate".

Ora stiamo pensando di utilizzare Hive per estrarre i dati regolarmente da HDFS e archiviare l'output in un database "più in tempo reale", ad es. HBase o RDBMS (ad esempio MySQL).

Funzionerà ma sono preoccupato che manchi una soluzione più semplice / più semplice (se ce n'è una) che richiede meno ETL / estratti e meccanismi di archiviazione dei dati duplicati (HDFS + qualcos'altro)

    
posta kellyfj 10.10.2013 - 15:24
fonte

1 risposta

6

Raccomando di conservare i dati in HDFS e convertirli nel formato di file Parquet . Parquet utilizza una rappresentazione concisa e colonnare di dati nidificati e ridurrà l'I / O richiesto per molte delle tue query.

Una volta che i tuoi dati sono nel formato Parquet, utilizzerei Impala per pubblicare query SQL sui dati. Impala implementa un motore di esecuzione altamente efficiente per query SQL su dati archiviati in HDFS. Le query Impala restituiranno risultati nella dashboard con bassa latenza. A differenza di Hive, il motore di esecuzione Impala non si basa sull'implementazione MapReduce di Hadoop.

Se disponi di dati di testo che desideri visualizzare nella dashboard, ti consigliamo Ricerca Cloudera per indicizzarlo. Cloudera Search è una versione di Solr Cloud che archivia e serve indici Lucene partizionati su HDFS.

È piuttosto banale installare Impala e Search con Cloudera Manager . Cloudera Manager è uno strumento software gratuito che fornisce una GUI nel browser per l'installazione e la gestione di Cloudera e dei relativi software di terze parti. Se installi e gestisci il tuo cluster con Cloudera Manager, non devi preoccuparti di ottimizzare la configurazione o garantire la compatibilità tra versioni diverse tra HDFS, Parquet e Impala.

Per provare il tuo nuovo cluster, potresti utilizzare Cloudera Manager per installare Hue . Hue fornisce una GUI basata sul Web per gli utenti finali di Cloudera e dei relativi software di terze parti. Da Hue puoi esplorare i dati in HDFS e pubblicare query di ricerca SQL o parole chiave sui tuoi dati.

Per un esempio di dashboard interattivo creato con D3 che utilizza Cloudera Impala e Search sul back-end, controlla Zoomdata . Questo video è una meravigliosa dimostrazione delle capacità interattive di Impala e Search.

Se desideri utilizzare Tableau, Cloudera crea connettore per Tableau disponibile che funziona con Impala.

Si noti che il già prestazioni eccezionali di Impala per piccoli set di dati saranno aiutati dalla prossima cache in memoria che viene aggiunto a HDFS con la nostra prossima versione.

    
risposta data 10.10.2013 - 18:32
fonte

Leggi altre domande sui tag