Domande con tag 'big-data'

1
risposta

Mangiando eventi a Elasticsearch, ho davvero bisogno di Logstash?

Sto progettando un sistema di analisi che alimenta tutti gli eventi a Elasticsearch. Il ciclo di vita dell'evento è il seguente: Il visitatore fa qualcosa. Il server di analisi personalizzato raccoglie dati, ne crea un evento e lo inserisc...
posta 04.01.2016 - 16:52
1
risposta

BigData: numero di parole basato sul tempo

Che cosa stiamo cercando di fare: Stiamo cercando di creare un sistema che conterrà il numero di voci uniche per un determinato periodo di tempo. Funziona bene fino a quando i dati crescono o il tempo aumenta, quindi riceviamo qualche OOM Exc...
posta 17.12.2015 - 11:03
2
risposte

Data Aggregation dei file CSV java

Ho k csv files (5 file csv per esempio), ogni file ha m campi che producono una chiave e valori n . Ho bisogno di produrre un singolo file CSV con dati aggregati. Sto cercando la soluzione più efficiente per questo problema, sop...
posta 07.08.2013 - 16:04
1
risposta

Come aggiornare in modo incrementale il valore delle funzionalità in una pipeline di apprendimento automatico?

Sto lavorando su una pipeline di machine learning in cui dobbiamo calcolare determinate misure sullo streaming dei dati. Ogni giorno, nuovi dati grezzi entrano nella nostra pipeline. Per aggiornare le nostre funzionalità, dobbiamo eseguire un ET...
posta 18.12.2018 - 10:38
2
risposte

Usando la sostituzione per ottenere risultati possibili per poi cercare attraverso la quantità enorme di dati

Ho una tabella di database contenente 40 milioni di record (tabella A). Ogni record ha una stringa che un utente può cercare. Ho anche una tabella con un elenco di sostituzioni di caratteri (tabella B), cioè i = Y, I = 1 ecc. Devo esser...
posta 17.08.2012 - 11:10
2
risposte

Come evitare scontri nell'elaborazione distribuita quando si esegue il polling del lavoro?

Un lavoro di big data è suddiviso in X partizioni. Le partizioni sono memorizzate in un database. Lo stato di ogni partizione viene anche memorizzato nel database e utilizzato per garantire che ogni partizione venga elaborata una sola volta da u...
posta 22.07.2018 - 23:00
0
risposte

Gestire i big data [chiuso]

Sono in un progetto che si occupa di molti dati sotto forma di immagini e video (dati relativi all'ingegneria del vento). Il mio requisito è costruire un algoritmo predittivo basato sui dati che ho. Ho trovato molti strumenti con cui posso anali...
posta 25.11.2015 - 08:10
0
risposte

Compensazione dell'uso elevato in un ambiente di database multi-tenant?

Sto scrivendo un saggio di ricerca su sistemi distribuiti basati su cloud, e uno degli argomenti che sto cercando di toccare sono potenziali soluzioni per l'utilizzo elevato del database in un'architettura multi-tenant a database singolo. Ho cer...
posta 26.03.2016 - 17:19
0
risposte

Qual è un buon approccio per aggiornare milioni di righe in modo indipendente?

Ho un database MongoDB con milioni di utenti in collezione. Una funzione di aggregazione restituisce milioni di risultati con il seguente formato: Array ( [_id] => Array ( [user] => MongoId Object ( [$id] => 52050d48e654f6342c002d42...
posta 21.08.2013 - 16:27
4
risposte

Come inserire / aggiornare una grande quantità di dati in mysql usando php

Ho un foglio Excel che ha una grande quantità di dati. Sto usando php per inserire i dati nel server mysql. Ho due problemi 1) Devo aggiornare una riga se l'ID esiste già, altrimenti inserisci i dati. 2) GRANDE PROBLEMA: ho più di 40.00...
posta 09.05.2014 - 05:48