Come e quando scegliere tra consolidamento dati / integrazione dati e sincronizzazione dati?

6

Sto avendo una certa confusione su come decidere cosa scegliere tra Data Consolidation/Data Integration e Data Synchronisation ? Lo so:

Consolidamento dei dati / Integrazione dei dati: fa riferimento alla raccolta e all'integrazione dei dati da più fonti in un'unica destinazione. Durante questo processo, diverse origini dati vengono raggruppate o consolidate in un singolo archivio dati.

Sincronizzazione dati: si riferisce alla creazione di coerenza tra sistemi e archivi dati e successivi aggiornamenti continui per mantenere la coerenza.

Ora supponiamo di avere un caso come questo per un'azienda:

- I dati sono presenti in più fonti spesso a livello di dipartimento

- A causa di questa maggior parte del tempo, l'azienda spende nella convalida dei dati piuttosto che in un'analisi utile per la pianificazione

- La definizione dei dati varia anche tra le diverse fonti

Ora viene fornito un caso del genere che è meglio usare: integrazione / consolidamento dei dati o lasciare i dati in fonti diverse e sincronizzarli?

Inoltre quali altre informazioni utili e pertinenti dovrei cercare per aiutare a prendere la decisione e in che modo tali informazioni aggiuntive rifletteranno sul mio processo decisionale?

    
posta Jason Donnald 10.09.2016 - 22:02
fonte

4 risposte

1

Considerando questo dalla prospettiva del tardo 2017, l'integrazione dei dati sarebbe una buona scelta, insieme a una revisione dei sistemi esistenti per determinare quali sono candidati per aggiornamenti o sostituzioni.

Usando un lago dati o un data warehouse per consolidare i dati aziendali importanti da ciascuno dei sistemi più disparati, fornisci agli utenti una fonte per la ricerca e l'analisi. I dati vengono convalidati come parte del processo ETL e pertanto si dispone di controlli e contrappesi per assicurare la qualità dei dati. Inoltre, lo spostamento delle query e analisi dai sistemi operativi consente loro di concentrarsi sulle transazioni giornaliere.

Un'altra alternativa è usare un sistema ELT (estrazione, caricamento, trasformazione). Questo potrebbe non essere appropriato per tutti questi sistemi disparati, ma offre vantaggi per quelli compatibili. L'ELT sposterebbe i dati dai sistemi operativi e quindi eseguirà il processo di trasformazione o trasformerà al tempo di interrogazione. Questo approccio alleggerisce il carico di manutenzione, dal momento che non c'è un processo di trasformazione ingombrante prima che i dati siano disponibili per gli utenti. Alcuni tipi di sistemi (sia in funzione che in tipi di dati) sono probabilmente più adatti a ELT di altri. Per comprendere meglio la differenza, ecco un buon articolo ETL / ELT 101 di Blog di Panopoly .

Per mantenere aggiornato il magazzino, consiglio di utilizzare lo streaming di dati in tempo reale o quasi in tempo reale da sistemi transazionali e flussi di dati regolari da sistemi non di transazione. Con gli strumenti disponibili, questi processi potrebbero essere automatizzati in gran parte una volta verificato il flusso di lavoro originale.

    
risposta data 24.10.2017 - 20:15
fonte
1

Commento preliminare

Prima di tutto, il caso che presenti (singola azienda, molte fonti dipartimentali, molte convalide per superare dati dipartimentali incompleti / incoerenti / impareggiabili e inefficienze a spese dell'analisi utile dei dati), è il tipico caso aziendale per reingegnerizzare i tuoi sistemi o adottare un sistema software integrato come ERP .

Ma mi rendo conto che questo non è sempre possibile né desiderabile.

Il caso dell'integrazione dei dati

L'integrazione dei dati è un approccio popolare, in quanto mostra la ricca offerta di ETL soluzioni e la tendenza per i data warehouse dell'impresa .

Nonostante le sue vecchie radici, questo approccio è efficace, fattibile in quasi tutti i paesaggi (batch o in tempo reale, dati complementari o disparati, dati puliti o dati da pulire e correggere, ecc ...) e robusto.

Il caso per la sincronizzazione

D'altra parte, recenti sviluppi tecnologici, come ad esempio grandi architetture di dati o microservizi , cercare di separare i sistemi e facilitare il ridimensionamento (evitando il database condiviso che potrebbe diventare un collo di bottiglia).

Sincronizzazione dei dati tramite gestione degli eventi e messaging è un modo molto efficace per disaccoppiare i sistemi e raggiungere la scalabilità, se il consumo diretto da un'API di servizi non vale la complessità aggiuntiva della sincronizzazione.

La sincronizzazione richiede tuttavia un modello coerente tra le applicazioni che è buona pratica di DDD ma non sempre possibile in un panorama di sistema eterogeneo storicamente cresciuto.

    
risposta data 09.09.2017 - 15:15
fonte
0

Questo dipende da molti fattori esterni. Se osservi i diversi schemi di dati, probabilmente non sarà così difficile consolidarli, trascinare una delle fonti di dati nell'altra o ricominciare da zero con una terza, costruendola da zero tenendo conto delle esigenze di entrambe le esistenti quelli e migrare i dati. Ma ci saranno delle dipendenze come

  • applicazioni, tecnicamente e logicamente legate ad entrambi gli store;
  • responsabilità organizzative per qualità del servizio, continuità, conservazione dei dati attuali, problemi di privacy, sfruttamento commerciale dei dati, eccetera;
  • i costi di licenza per i diversi sistemi di database che possono variare enormemente, il contratto con il venditore potrebbe essere stato prorogato per un numero di anni che sarebbe considerato un "investimento" da parte del management superiore;
  • politica aziendale generale: chi ottiene i dati del conto?;

Quindi è impossibile dire quale sarebbe preferibile in generale.

    
risposta data 11.09.2016 - 08:16
fonte
0

Quando penso alla sincronizzazione, mi vengono in mente alcune idee:

  • Alta disponibilità dei dati tra i sistemi.
  • Dati equivalenti tra questi sistemi
  • Scambio di dati tra questi sistemi
  • Alta volatilità dei dati
  • Alta frequenza dello scambio di dati (una volta al minuto, un'ora, un giorno)
  • Processo lightweigth
  • Semplicità

Un primo esempio potrebbe essere SCM. sincronizziamo il codice tra diversi archivi di dati: il nostro file system locale, il file system del server e il file system del collaboratore.

Vogliamo che i repository siano disponibili il più a lungo possibile per permetterci di sincronizzare il codice spesso.

Più è alta la frequenza della sincronizzazione, più facile è l'unione per tutti.

D'altra parte, quando penso al consolidamento (integrazione), tendo a pensare in:

  • Grande quantità di dati
  • Meno frequenza. Giornaliero, settimanale, mensile, annuale.
  • Nessuno scambio di dati, solo sistemi che raggruppano i dati in un singolo archivio dati
  • Processi pesanti
  • Complessità
  • Diversi formati di dati trasformati in un singolo modello di dati
  • Archivio dati centrale
  • Qualità dei dati

Un primo esempio potrebbe essere ETL . Solitamente gli ETL si svolgono meno spesso delle sincronizzazioni.

Poiché la quantità di dati da spostare e trasformare, il processo è solitamente più pesante e complesso. Carichi pesanti e trasformazioni complesse richiedono più risorse. O ambienti dedicati.

I dati provengono solitamente da diverse fonti, ma raramente ritorna a queste fonti.

Detto questo, arriviamo a comprendere che entrambi i processi non si escludono a vicenda. Potremmo decidere di eseguire un ETL durante la notte prima e successivamente eseguire sincronizzazioni continue tra i diversi sistemi.

Torna al tuo caso specifico, dipende dai requisiti. Di solito rileviamo le priorità durante la raccolta dei requisiti e scegliamo la strategia corretta durante l'analisi dei requisiti.

In base al tuo scenario, sembra che l'azienda abbia bisogno di un consolidamento dei dati per semplificare l'accesso e la convalida dei dati provenienti da fonti diverse.

Quindi, per prima cosa metterei insieme tutte le origini dati in un singolo archivio dati e successivamente (se necessario) consentire le sincronizzazioni tra l'archivio dati centrale e i diversi reparti.

    
risposta data 11.09.2016 - 19:30
fonte

Leggi altre domande sui tag