La mia domanda riguarda i "big data". Fondamentalmente, i big data implicano l'analisi di una grande quantità di dati per ricavarne approfondimenti significativi.
Vorrei sapere:
Indipendentemente dal fatto che grandi quantità di dati possano essere pre-elaborate? (ad esempio, ad esempio, si sta eseguendo un servizio di corrispondenza per le persone, quindi si prendono tutte le informazioni che si hanno sulle persone e le si elabora a un certo punto per utilizzarle in seguito)
Se è possibile la pre-elaborazione, come faresti normalmente a fare questo?
Per aiutare a restringere l'ambito della mia domanda, guarda questo scenario ipotetico.
Say I have a customer database and my company is a global retailer that is using some type of points system to reward the shoppers (for arguments sake, the points are tallied up on a type of electronic card or mobile app).
So based on my rewards system, I am now able to fully aware of exactly what a shopper is purchasing and when they normally make purchases of recurring items.
My database is growing all the time with this information and I would now like to make recommendations (or send notifications) to shoppers about special offers of products they buy or related products that may interest them, when they enter 1 of the stores.
Instead of processing all the accumulated data when a shopper enters the store, I would like to continually process the data-stream as the data comes in (meaning from previous shopping experiences), so that when it comes time to make a recommendation (for the next time a shopper walks into the store), it is simply a matter of retrieving the recommendations and providing a list of it to the shopper.
With this method in mind, I can easily space out my CPU-intensive tasks, instead of say: processing all customer data on a busy day when foot-traffic is at peak volumes.
Chiedendo come farei questo, mi riferirò ai metodi comuni disponibili per raggiungere questo obiettivo. Questo può includere database speciali o tecniche di programmazione o persino software specializzati in grado di eseguire questi calcoli temporizzati che possono "preelaborare" i dati in momenti specifici, al fine di bilanciare le attività a uso intensivo della CPU.
È possibile considerare lo scenario di raccomandazione del cliente come la "situazione". È lo scenario di esempio migliore che potrei pensare che spiegherebbe perché il "pre-processing" (o il calcolo delle raccomandazioni in momenti specifici) avrebbe senso.