Questa è una domanda molto vaga, non esiste una definizione di canon per ciò che costituisce i big data. Da un punto di vista dello sviluppo, l'unica cosa che cambia veramente il modo in cui è necessario gestire i dati è se si dispone di così tanto che non è possibile inserirli tutti in memoria contemporaneamente.
Quanto di un problema dipende in gran parte da ciò che è necessario fare con i dati, per la maggior parte dei lavori è possibile eseguire uno schema a passaggio singolo in cui si carica un blocco di dati, fare tutto il necessario, scaricarlo e vai al successivo.
A volte i problemi possono essere risolti eseguendo un passaggio di organizzazione, prima esaminando i dati organizzandoli in blocchi di dati che devono essere gestiti insieme, quindi esaminando ogni blocco.
Se questa strategia non si adatta al tuo compito, puoi ancora fare un lungo cammino con lo swapping del disco gestito dal sistema operativo, gestire i dati nei blocchi il più lontano possibile, ma se hai bisogno di un piccolo accesso arbitrario qua e là è ancora in corso lavorare.
E ovviamente una strategia sempre eccellente quando si ha a che fare con un sacco di dati è quella di sminuzzarla con l'hardware. Puoi ottenere 64 GB di memoria in blocchi da 16 GB per $ 500, se stai lavorando con così tanti dati è un investimento facilmente giustificabile. Alcuni buoni SSD sono nobili.
Caso specifico:
Gran parte di questo lavoro è sicuramente la riduzione di questi dati da 3 GB a persona. Spesso è un po 'un'arte a sé stante per scoprire cosa può essere buttato via, ma data la quantità che devo presumere di avere una buona quantità di misurazioni di massa, in generale dovresti prima trovare schemi e aggregazioni per quelli dati e quindi utilizzare tali risultati per confrontare le persone tra loro. La maggior parte dei tuoi dati grezzi è rumore, ripetizione o irrilevante, devi ridurli.
Questo processo di riduzione è facilmente adatto per un cluster, dato che puoi semplicemente dare a ogni processo la propria pila di persone.
L'elaborazione successiva è un po 'più complicata, ciò che è ottimale dipende da molti fattori e probabilmente dovrai fare qualche prova ed errore. Se riesci ad adattarlo al lavoro, prova a caricare i dati selezionati di tutte le persone sullo stesso computer e confrontali, fai lo stesso con altri dati su altri computer. Utilizza questi risultati come nuovi set di dati ecc.