Sperimentare con "big data" e ridurre la mappa

2

Stavo pensando di sperimentare un po 'con l'uso di mapreduce e così su un set di dati che dobbiamo vedere se possiamo trarne beneficio in qualsiasi modo.

Quale percorso dovrei andare se voglio essere in grado di istantaneamente, senza alcuna modifica importante, distribuire le mie scoperte a una sorta di grid / cloud-system per vedere se c'è qualche vantaggio in più per farlo scalare nel cloud.

    
posta Christian Wattengård 04.06.2013 - 12:37
fonte

1 risposta

1

"The Cloud" è solo un mucchio di macchine che non possiedi. L'esecuzione su queste macchine non è diversa dall'esecuzione sui computer che fanno proprio, eccetto che si paga per il tempo e la larghezza di banda.

Se utilizzi uno strumento come Hadoop, aggiungere macchine è solo una questione di configurazione (non parli di piattaforma, ma è il giocatore principale nella mappa non di Google - ridurre lo spazio, che è solo uno dei tecniche big-data).

La mia raccomandazione è che si lavori attraverso il tutorial, si esegua un'implementazione single-node dell'applicazione in esecuzione, quindi immediatamente si sposti su un servizio cloud come Amazon EC2. Puoi iniziare con due piccole istanze per circa un dollaro al giorno e aumentare il numero di macchine da lì.

Come nota cautelativa: a meno che tu non abbia a che fare con centinaia di gigabyte di dati (e preferibilmente con terabyte), non penso che vedrai molti vantaggi del ridimensionamento orizzontale o del "cloud". C'è un tempo non insignificante per impostare e smantellare le operazioni di riduzione delle mappe.

    
risposta data 04.06.2013 - 15:02
fonte

Leggi altre domande sui tag