QFS (Quantcast file system): scalabile per problemi di "big data" di media o solo per estremamente grandi

0

Sto facendo alcuni studi e ricerche sulla programmazione di "big data", e sono particolarmente interessato a QuantCast (QFS) perché è scritto nel mio linguaggio di programmazione preferito, C ++.

Considerando come questo possa avere un ruolo nella soluzione di certi problemi dei "big data", so che questo può gestire l'implementazione dei file system peta-byte. Mi piacerebbe sapere comunque quanto sia scalabile per i sistemi big-data che non sono così grandi.

Ho visto molti confronti tra QFS e Hadoop, e come QFS può sovraperformare Hadoop e quindi chiunque usi Hadoop può prendere in considerazione l'uso di Quantcast (se vogliono solo prestazioni mega).

Essenzialmente è scalabile per progetti di dimensioni medio-grandi? (Qualcuno ha chiesto lo stesso su BDD ma non su Quantcast)

(Ho anche visto Hadoop e quindi Quantcast chiamato "database". Lo chiamerei un filesystem, in cima al quale potresti creare un database ma non chiamarlo database stesso.

    
posta CashCow 06.08.2013 - 14:30
fonte

1 risposta

2

DISCLAIMER - Lavoro a Quantcast

I vantaggi della "velocità su scala" di QFS diventano certamente più pronunciati, maggiore è la portata della distribuzione e più intenso è l'utilizzo, ma ciò non vuol dire che non vi sia alcun vantaggio per le distribuzioni più modeste. Tuttavia, concederei che se non si esegue il cluster a piena capacità 24 ore su 24 (come nel caso di Quantcast) e il cluster è relativamente modesto, la velocità non è la motivazione principale per l'utilizzo di QFS.

Il vantaggio disponibile su qualsiasi scala è un aumento della capacità di archiviazione logica per una data implementazione hardware rispetto a quella offerta da HDFS per lo stesso livello di integrità dei dati a causa di QFS che utilizza la correzione degli errori Reed-Solomon piuttosto che la duplicazione diretta (come in HDFS con duplicazione a 3 vie). L'approccio QFS alla correzione degli errori aumenta anche la tolleranza di errore per ogni dato set di dati da 2 nodi (con replica dei dati a 3 vie) a 3. Più fault tolerant e metà dello spazio fisico si traducono in dollari reali quando si tratta di gestire un cluster . Il valore di questo non può essere sottovalutato, in quanto sostanzialmente moltiplica l'utilità delle tue spese in conto capitale. Questo è il motivo per cui abbiamo aggiunto la funzionalità Reed-Solomon a QFS.

    
risposta data 20.08.2013 - 03:03
fonte

Leggi altre domande sui tag