NoSQL e BIG DATA

5

Sto facendo uno stage sulle tecnologie dei Big Data, quindi sono nuovo in quest'area. La mia domanda riguarda l'uso di NoSQL nell'architettura Big Data. Abbiamo sempre bisogno di utilizzare una memoria distribuita (come HDFS nel caso di Hadoop) per poi mettere in cima un database NoSQL (come Hbase)?

Trovo difficile comprendere la tipica architettura di BIG Data appositamente per i dati non strutturati.

Se puoi aiutarmi a vedere meglio, sarò così grato.

    
posta soufiane.989 25.03.2013 - 09:48
fonte

4 risposte

0

La maggior parte delle tecnologie Big Data sono distribuite in base alla progettazione, perché l'idea di big data è che il tuo database è troppo grande e troppo frequentato per essere gestito da un solo server.

Ma la maggior parte delle nuove tecnologie di database distribuite (alcune delle quali potrebbero essere chiamate NoSQL) non usano una piattaforma separata come HDFS come back-end di storage distribuito, ma hanno una propria. MongoDB, per citarne solo un esempio, viene eseguito come processi diversi su più server che comunicano tra loro per formare cluster e frammenti.

    
risposta data 28.03.2013 - 10:37
fonte
4

Da link

NoSQL database systems are often highly optimized for retrieval and appending operations and often offer little functionality beyond record storage (e.g. key–value stores). The reduced run-time flexibility compared to full SQL systems is compensated by marked gains in scalability and performance for certain data models.

In short, NoSQL database management systems are useful when working with a huge quantity of data when the data's nature does not require a relational model. The data can be structured, but NoSQL is used when what really matters is the ability to store and retrieve great quantities of data, not the relationships between the elements.

  • Abbiamo sempre bisogno di utilizzare una memoria distribuita (come HDFS nel caso di Hadoop) per poi mettere in cima un database NoSQL (come Hbase)?

Per grandi dimensioni è meglio usare lo storage distribuito con NoSQL. Ma su piccola scala puoi usare il normale sistema di archiviazione.

  • Trovo difficile comprendere la tipica architettura di BIG Data appositamente per i dati non strutturati.

Da link

Unstructured Data (or unstructured information) refers to information that either does not have a pre-defined data model and/or does not fit well into relational tables. Unstructured information is typically text-heavy, but may contain data such as dates, numbers, and facts as well. This results in irregularities and ambiguities that make it difficult to understand using traditional computer programs as compared to data stored in fielded form in databases or annotated (semantically tagged) in documents.

Da link

In information technology, big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. With this difficulty, new platforms of "big data" tools are being developed to handle various aspects of large quantities of data.

Per comprendere l'architettura di BIG Data appositamente per i dati non strutturati, dai un'occhiata a come funzionano i giganti con i Big Data.

Ad esempio, Google

Ad esempio, IBM

Adesempio,Facebook

risposta data 28.03.2013 - 13:37
fonte
0

Lo storage distribuito è un dettaglio di implementazione più che una cosa necessaria per capire come gestire i dati BIG. Vorrei concentrarmi innanzitutto sulla comprensione dei dati non strutturati, che è più una caratteristica e più importante da usare.

    
risposta data 25.03.2013 - 14:51
fonte
-1

L'uso dello storage distribuito aiuta a ottenere l'utilizzo corretto delle tecnologie NoSQl, se è necessario utilizzare o sfruttare appieno queste tecnologie, con i big data è necessario utilizzare lo storage distribuito.

    
risposta data 28.03.2013 - 09:01
fonte

Leggi altre domande sui tag