Domande con tag 'hadoop'

2
risposte

SRP nell'impostazione "big data"

Abbiamo una base di codice al lavoro che: Ingerisce (in basso) migliaia di piccoli file. Ciascuno di questi file di input contiene circa 50k "micro-articoli" Questi "micro-elementi" vengono quindi raggruppati insieme per trovare "macro-ele...
posta 05.08.2016 - 16:14
1
risposta

Come meglio unire / ordinare / sfogliare tonnellate di matrici JSON?

Ecco lo scenario: supponi di avere milioni di documenti JSON memorizzati come file di testo. Ogni documento JSON è un array di oggetti "activity", ognuno dei quali contiene un attributo "created_datetime". Qual è il modo migliore per unire / ord...
posta 05.02.2013 - 19:55
1
risposta

È intelligente progettare un server di comando e controllo, che monitorerà le risorse di sistema e farà girare / ruotare i server in momenti di picco?

Sto costruendo un'applicazione che sarà modulare, in modo che sarà un insieme di sistemi separati che comunicano tra loro. Usa Hadoop su tutti i sistemi e HBase su 3 dei 4. Il ridimensionamento sarà solo un problema sul sistema non Hbase, uti...
posta 10.08.2012 - 21:21
1
risposta

Come si controllano i nodi in una server farm?

Ho letto di hadoop e configurazioni multi-nodo, e nella documentazione dice che devi avere un software JVM e hadoop già in esecuzione su quei nodi. La mia domanda è: le persone installano questo software su ciascuno di questi computer individ...
posta 04.07.2011 - 17:53
1
risposta

# Apache-flink: elaborazione stream o elaborazione batch tramite Flink

Ho il compito di ridisegnare un processore di catalogo esistente e il requisito è il seguente Requisiti Ho da 5 a 10 fornitori (ogni venditore può avere più negozi) che mi fornirebbe un file 'XML' per negozio. In pratica, 1 file xml di prodott...
posta 22.09.2016 - 08:11
0
risposte

Migliora la comunicazione tra controller e tracker in uno strumento fetcher Twitter utilizzando RabbitMQ o Apache Flume

Ho lavorato per un po 'con alcune ricerche sviluppando uno strumento per recuperare i tweet da Twitter e elaborarli in qualche modo. Il primo prototipo "ha funzionato" ma è diventato un dolore perché abbiamo usato le prese per collegare diversi...
posta 19.01.2015 - 18:27
0
risposte

Progettazione della governance dei dati per cluster Hadoop senza apache atlas o cloudera navigator

Sto lavorando su un cluster hadoop che deve implementare una qualche forma di governance dei dati (per i miei scopi, diciamo solo lignaggio / provenienza dei dati per tracciare la cronologia dei file nell'HDFS). Questo cluster utilizza l'impleme...
posta 03.05.2018 - 01:01
0
risposte

Soluzione non HBase per dati enormi che ha aggiornamento ed eliminazione in modo sequenziale

Devo progettare un'applicazione in cui ci sono circa 5K file di testo strutturati di base (file.txt) con dati e formato come di seguito: La chiave primaria è OrgId + ItemId OgId|^|ItemId|^|segmentId|^|Sequence|^|Action|!| 4295877341|^|136|^|4...
posta 09.08.2017 - 13:58
1
risposta

Hadoop è progettato solo per lavori di elaborazione dati "semplici", in cui le comunicazioni tra i nodi distribuiti sono sparse?

Non sono un programmatore professionista, ma piuttosto un ingegnere / matematico che usa il computer per risolvere problemi numerici. Finora la maggior parte dei miei problemi sono legati alla matematica, come risolvere sistemi lineari su larga...
posta 25.06.2014 - 11:19
1
risposta

Devo usare NoSQL o HDFS per l'archiviazione?

Ho milioni di tweet attualmente archiviati in HDFS e ho intenzione di analizzarli da Spark (Data mining, text mining, Cluster di testo a frequenza frequente, Analisi della rete sociale), tuttavia, non so se c'è qualche vantaggio nell'usare un da...
posta 24.03.2016 - 02:12