Qual è la definizione di "Big Data"?

23

C'è uno?

Tutte le definizioni che posso trovare descrivono la dimensione, la complessità / varietà o velocità dei dati.

La definizione di Wikipedia è l'unica che ho trovato con un numero effettivo

Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set.

Tuttavia, questo apparentemente contraddice la definizione MIKE2.0 , di cui al paragrafo successivo, che indica che "grande" i dati possono essere piccoli e 100.000 sensori su un aeromobile che creano solo 3 GB di dati potrebbero essere considerati grandi.

IBM nonostante abbia detto questo:

Big data is more simply than a matter of size.

hanno sottolineato le dimensioni in la loro definizione .

O'Reilly ha anche sottolineato "volume, velocity and variety" . Sebbene sia stato spiegato bene, e in modo più approfondito, la definizione sembra essere un rifacimento degli altri - o viceversa, naturalmente.

Penso che un articolo di Computer Weekly title riassume abbastanza articoli " Che cosa sono i big data e come possono essere utilizzati per ottenere un vantaggio competitivo ".

Ma ZDNet vince con il seguente dal 2012 :

“Big Data” is a catch phrase that has been bubbling up from the high performance computing niche of the IT market... If one sits through the presentations from ten suppliers of technology, fifteen or so different definitions are likely to come forward. Each definition, of course, tends to support the need for that supplier’s products and services. Imagine that.

In sostanza, i "big data" sono "grandi" in qualche modo forma o forma.

Che cos'è "grande"? È quantificabile al momento attuale?

Se "grande" non è quantificabile esiste una definizione che non si basa solo sulle generalità?

    
posta Ben 07.06.2012 - 21:41
fonte

4 risposte

42

Non ce n'è uno; è una parola d'ordine.

Il delineatore però è che i tuoi dati vanno oltre le capacità dei sistemi tradizionali. I dati sono troppo grandi per essere archiviati sul disco più grande, le query richiedono troppo tempo senza un'ottimizzazione speciale, la rete o il disco non supportano il flusso di traffico in entrata, una semplice vecchia vista dati non gestirà la visualizzazione per la forma / dimensione / larghezza dei dati ...

Sostanzialmente, i tuoi dati vanno oltre un punto di non-definizione definito in cui "basta aggiungere altro hardware" non lo taglierà.

    
risposta data 07.06.2012 - 21:57
fonte
2

Come indicato nel link Oracle (commento di Immad Careem) oracle.com/us/technologies/big-data/index.html. I Big Data sono tutto ciò che non è un dato relazionale memorizzato in un RDBMS. Pochi anni prima della pubblicità era solo "un sacco di dati". Ora è cresciuto ed è stato promosso dai marketer come una specie di dati speciali.

Ci sono diversi motivi secondari (oltre al marketing) per considerare i Big Data una cosa reale.

  1. Invenzione di Riduzione mappa
  2. tecnologie NOSQL come Hadoop
  3. Qualche evoluzione nei RDBMS tradizionali influenzata dalla domanda di tipi di dati non strutturati
  4. Probabilmente alcune tecnologie hardware offerte dalla società EMC2
risposta data 09.06.2012 - 19:48
fonte
0

Utilizzando la risposta di Doug Laney come punto di partenza, abbiamo decodificato un elenco di definizioni di Big Data, ora oltre 30 e andando strong. Il nostro elenco di definizioni per "Big Data" si trova qui .

Accogliamo correzioni, voci, grafica, ecc.

    
risposta data 29.05.2013 - 11:46
fonte
-1

È bello vedere O'Reilly e gli altri finalmente attaccarsi ai 3V di Gartner dei big data che abbiamo introdotto per la prima volta oltre 11 anni fa. Per riferimento, ecco il pezzo originale che ho scritto nel 2001: link .

La definizione recentemente aggiornata di Gartner riconosce anche l'aspetto del valore: "I Big Data sono risorse informative con volumi, velocità e / o varietà che richiedono forme innovative di elaborazione delle informazioni per una scoperta approfondita di informazioni, processi decisionali e automazione dei processi".

Abbiamo anche sviluppato un metodo per quantificare l'ampiezza dei dati lungo i tre vettori che sono prescrittivi in termini di adozione della tecnologia. Tuttavia non posso condividerlo pubblicamente.

    
risposta data 08.06.2012 - 17:22
fonte

Leggi altre domande sui tag