Devo usare NoSQL o HDFS per l'archiviazione?

Question

Devo usare NoSQL o HDFS per l'archiviazione?

#1 da (0 voti)

-3

Ho milioni di tweet attualmente archiviati in HDFS e ho intenzione di analizzarli da Spark (Data mining, text mining, Cluster di testo a frequenza frequente, Analisi della rete sociale), tuttavia, non so se c'è qualche vantaggio nell'usare un database invece di HDFS per la gestione dei dati.

C'è qualche giustificazione (in termini di efficienza, carico di lavoro, ecc.) per lavorare con i dati provenienti da qualsiasi database (forse MondoDB) invece che direttamente in HDFS (archiviati in formato json)? Dato che l'analisi lo farò da Spark.

architecture nosql mongodb big-data hadoop

posta J Doe 24.03.2016 - 01:12

fonte

1 risposta

Leggi altre domande sui tag architecture nosql mongodb big-data hadoop

Trasmissione di dati dinamici a tag di caricamento delle risorse dichiarative in un documento HTML? complessità di un algoritmo, ordinamento del 5% out [duplicato]

score 0 · Accepted Answer

Un dataset distribuito resiliente (RDD), l'astrazione di base in Spark. Rappresenta una raccolta di elementi immutabili e partizionati che possono essere utilizzati in parallelo.

La scintilla funziona principalmente nella memoria.

Come prima risposta dirò che per rendere l'analisi non è necessario inserire i dati nel database.