Domande con tag 'big-data'

0
risposte

MapReduce una struttura corretta per Extract, Transform, Load of data?

Modifica Sto lavorando a un progetto per aggiornare un'infrastruttura ETL legacy che supporta un numero di client, ognuno con un'impostazione leggermente diversa. Vincoli che non possono essere modificati: I dati sorgente possono pro...
posta 12.02.2018 - 18:02
0
risposte

I dati in un albero radicato possono essere elaborati in parallelo?

Ho dati strutturati come i seguenti: users: id | name | parent_id 1 | Bob | NULL 2 | Jan | 1 3 | Mat | 2 4 | Irene | 2 5 | Ellie | 2 6 | Laura | 5 7 | Uma | 6 user_sales: user_id | sales_period | total_volume | total_revenue...
posta 14.02.2018 - 19:12
0
risposte

Soluzione non HBase per dati enormi che ha aggiornamento ed eliminazione in modo sequenziale

Devo progettare un'applicazione in cui ci sono circa 5K file di testo strutturati di base (file.txt) con dati e formato come di seguito: La chiave primaria è OrgId + ItemId OgId|^|ItemId|^|segmentId|^|Sequence|^|Action|!| 4295877341|^|136|^|4...
posta 09.08.2017 - 13:58
0
risposte

Algoritmo per tracciare in modo efficiente il segnale infinito

Un mio processo di nodo riceve un punto campione ogni mezzo secondo e voglio aggiornare la cronologia di tutti i punti campione che ottengo. Il grafico dovrebbe essere un array che contiene la cronologia downsampled di tutti i punti da 0 al punt...
posta 13.09.2016 - 17:41
0
risposte

Quali sarebbero le buone opzioni di architettura per l'aggregazione dei dati con più indici?

Abbiamo un caso d'uso in cui abbiamo bisogno di memorizzare un grande insieme (molti milioni) di dati "oggetti" con più attributi (che possono differire nel tempo / per "collezioni" diverse, ad esempio per "tipi" di oggetti diversi lì sono possi...
posta 27.09.2017 - 19:57
2
risposte

Come indicizzare correttamente MongoDB con ElasticSearch?

stiamo lavorando a un progetto JAVA EE che gestisce una quantità di dati enorme , ma deve fornire un'opzione di ricerca full-text (in ungherese). Quindi abbiamo iniziato a pensare a quale tipo di architettura poteva soddisfare le nostre esigenz...
posta 06.01.2016 - 17:16
1
risposta

Hadoop è progettato solo per lavori di elaborazione dati "semplici", in cui le comunicazioni tra i nodi distribuiti sono sparse?

Non sono un programmatore professionista, ma piuttosto un ingegnere / matematico che usa il computer per risolvere problemi numerici. Finora la maggior parte dei miei problemi sono legati alla matematica, come risolvere sistemi lineari su larga...
posta 25.06.2014 - 11:19
1
risposta

Considerazioni sulla progettazione del database per volumi di dati estremamente grandi

Ho una prossima intervista per una posizione presso un'azienda che si occupa di volumi di dati in scala multi-petabyte. Mi inciteranno sulle domande standard di progettazione del database, ma quali sono le cose migliori su cui concentrare il mio...
posta 03.06.2017 - 22:37
1
risposta

Devo usare NoSQL o HDFS per l'archiviazione?

Ho milioni di tweet attualmente archiviati in HDFS e ho intenzione di analizzarli da Spark (Data mining, text mining, Cluster di testo a frequenza frequente, Analisi della rete sociale), tuttavia, non so se c'è qualche vantaggio nell'usare un da...
posta 24.03.2016 - 02:12