Domande con tag 'spark'

1
risposta

risveglia l'output alla pagina web

Stiamo eseguendo lavori i cui parametri provengono da una pagina Web e vengono eseguiti su file di grandi dimensioni in uno spark cluster. Dopo l'elaborazione, vogliamo visualizzare i dati indietro, scritti su file di testo usando rdd.saveAsTe...
posta 14.11.2016 - 16:19
0
risposte

Progettazione dell'analisi clickstream?

Ho un'applicazione in cui l'utente acquista / fa clic sui determinati prodotti. Ho bisogno di progettare l'analisi del flusso dei clic qui su quale prodotto è stato fatto clic sul numero di volte, l'utente / i dettagli geografici fanno clic sui...
posta 10.06.2017 - 19:28
1
risposta

Utilizzo di dati Apache Spark

e scusa se la domanda sembra un po 'ingenua. Attualmente sto leggendo tutorial su Kafka & Spark e c'è qualcosa che non riesco a capire: come sfruttare / esporre i dati ricevuti da Spark. Ecco cosa sto cercando di capire: Un sacco di...
posta 16.02.2017 - 20:30
1
risposta

Come aggiornare in modo incrementale il valore delle funzionalità in una pipeline di apprendimento automatico?

Sto lavorando su una pipeline di machine learning in cui dobbiamo calcolare determinate misure sullo streaming dei dati. Ogni giorno, nuovi dati grezzi entrano nella nostra pipeline. Per aggiornare le nostre funzionalità, dobbiamo eseguire un ET...
posta 18.12.2018 - 10:38
0
risposte

Apache Spark guidance - Può fare ciò di cui ho bisogno?

Stiamo lavorando su una grande piattaforma di microservizi per un'azienda nel settore degli eventi dal vivo. È costituito da API RESTful containerizzate, per lo più costruite in Nodo, che lavorano con Apache Kafka e Cassandra sul back-end. Oltre...
posta 08.10.2018 - 21:43
0
risposte

qual è il numero massimo di connessioni simultanee di socket java nel cluster?

lavoriamo all'interno di un cluster di 1 gb / s di larghezza di banda, utilizziamo i socket java per eseguire alcuni trasferimenti di dati tra i nodi del cluster come broadcast e shuffle (nodi dei dati di scambio cluster) nel cluster, nell'istan...
posta 29.04.2018 - 17:00
1
risposta

Elaborazione solo dopo lo stesso messaggio prodotto da due produttori

Se ho due produttori diversi che potrebbero produrre lo stesso messaggio per un broker Kafka, come posso garantire che solo una delle due occorrenze del messaggio venga elaborata? È l'unico modo per avere un argomento di input, quindi un cons...
posta 06.09.2018 - 11:57
1
risposta

Potrebbe la scintilla di Apache essere un'opzione?

Oggi utilizziamo il server SQL con più viste indicizzate. Ogni volta che aggiorniamo le tabelle di origine per la visualizzazione, il ritardo è troppo lungo. Non ho esperienza con Spark, quindi la domanda è: Possiamo inserire i dati dalle tab...
posta 08.08.2018 - 13:16
1
risposta

Come implementare la libreria / servizio RBAC scalabile?

Ho bisogno di progettare e implementare una libreria RBAC (controllo di accesso basato sui ruoli) per proteggere le chiamate RPC. Un ruolo è un elenco di verbi (metodi RPC). Uno dovrebbe essere in grado di associare un utente (o un gruppo di ute...
posta 23.11.2018 - 17:49
0
risposte

Quali sarebbero le buone opzioni di architettura per l'aggregazione dei dati con più indici?

Abbiamo un caso d'uso in cui abbiamo bisogno di memorizzare un grande insieme (molti milioni) di dati "oggetti" con più attributi (che possono differire nel tempo / per "collezioni" diverse, ad esempio per "tipi" di oggetti diversi lì sono possi...
posta 27.09.2017 - 19:57