Devo usare NoSQL o HDFS per l'archiviazione?

-3

Ho milioni di tweet attualmente archiviati in HDFS e ho intenzione di analizzarli da Spark (Data mining, text mining, Cluster di testo a frequenza frequente, Analisi della rete sociale), tuttavia, non so se c'è qualche vantaggio nell'usare un database invece di HDFS per la gestione dei dati.

C'è qualche giustificazione (in termini di efficienza, carico di lavoro, ecc.) per lavorare con i dati provenienti da qualsiasi database (forse MondoDB) invece che direttamente in HDFS (archiviati in formato json)? Dato che l'analisi lo farò da Spark.

    
posta J Doe 24.03.2016 - 02:12
fonte

1 risposta

0

Un dataset distribuito resiliente (RDD), l'astrazione di base in Spark. Rappresenta una raccolta di elementi immutabili e partizionati che possono essere utilizzati in parallelo.

La scintilla funziona principalmente nella memoria.

Come prima risposta dirò che per rendere l'analisi non è necessario inserire i dati nel database.

    
risposta data 24.03.2016 - 09:08
fonte

Leggi altre domande sui tag