Ho milioni di tweet attualmente archiviati in HDFS e ho intenzione di analizzarli da Spark (Data mining, text mining, Cluster di testo a frequenza frequente, Analisi della rete sociale), tuttavia, non so se c'è qualche vantaggio nell'usare un database invece di HDFS per la gestione dei dati.
C'è qualche giustificazione (in termini di efficienza, carico di lavoro, ecc.) per lavorare con i dati provenienti da qualsiasi database (forse MondoDB) invece che direttamente in HDFS (archiviati in formato json)? Dato che l'analisi lo farò da Spark.