Disaccordo in merito all'integrazione dei dati (non sono in grado di comprendere gli strumenti ETL aziendali)

5

Sono stato in una conversazione in corso riguardante un progetto che stiamo per intraprendere al mio posto di lavoro. Il progetto riguarda l'integrazione dei dati. I nostri clienti vogliono essere in grado di integrare i nostri dati con i loro, inviando i dati dai loro sistemi ai nostri, o ottenendo dati dal nostro sistema nel loro. Non credo che stiamo parlando di "big data". Il nostro intero database è di meno di 20 concerti.

Anche i trasferimenti individuali dai nostri clienti saranno molto piccoli - dell'ordine di 10s di MB, se non di minori.

Uno degli obiettivi principali di questo progetto è minimizzare la quantità di lavoro che deve essere eseguita dal cliente, che tende a non essere molto tecnico. In passato, questo problema è stato "risolto" con l'invio da parte dei nostri clienti di un file xml trasformato da xlst prima di essere salvato nel database o tramite un'applicazione WCF per l'esportazione dei dati. Queste non sono viste come buone soluzioni.

Il mio primo pensiero è stato quello di creare un'interfaccia REST con strumenti di monitoraggio e librerie molto validi per i nostri clienti.

Un'altra opzione che viene presa in considerazione sono strumenti grandi come IBM Datastage o Pentaho (o simili).

Il mio problema personale è che quando guardo questi strumenti, non vedo come possono aiutare. Sembra che siano finalizzati alla creazione di trasferimenti di dati su larga scala che si verificano su una pianificazione regolare con un determinato formato. L'aggiunta di una nuova importazione / esportazione utilizzando quegli strumenti richiede molte impostazioni sia per noi che per il cliente, che stiamo cercando di evitare. Inoltre, non sono davvero utili per gli aggiornamenti dei dati in tempo reale. Infine, sembra che stiano cercando di uccidere una formica con un lanciafiamme - sono pesi massimi per un problema di peso leggero.

Al contrario, con una configurazione REST, i dati possono essere trasferiti ogni volta che necessario, e l'installazione deve avvenire solo in un'area molto piccola.

Mi sto perdendo qualcosa quando si tratta di queste soluzioni ETL? Non sono giusto con loro?

    
posta Josh 21.05.2013 - 17:09
fonte

2 risposte

3

No, sei proprio qui. L'ETL è la scelta sbagliata per questo problema, ETL è per il trasferimento di informazioni da formati proprietari complessi, che sono regolari o di grandi dimensioni e devono integrarsi in altri schemi proprietari complessi. Inoltre ETL è spesso lo strumento di scelta per i tipi di business in quanto possono essere più user friendly per effettuare importazioni / integrazioni di dati ed evitare il sovraccarico di pagare per un ingegnere software, ma la tua azienda ha già SEs in staff che può rendere più semplice importazione che sarà più mantenibile. È come l'accesso, i tipi di business possono buttare insieme cose in esso, ma la manutenibilità sarà spazzatura nel tempo e peggiorare rapidamente. Il costo iniziale del lancio di un ingegnere a problemi di questo tipo è più alto di quello di tipo business + access, ma a lungo termine è modo più economico, inoltre i risultati sono sempre migliori per i clienti che aumentano la commerciabilità.

Hai a disposizione un semplice formato che puoi controllare, tutto ciò di cui hai bisogno è un endpoint REST (o anche solo FTP e insegna loro di usare un semplice client FTP) per caricare alcuni blocchi di dati XML che voi ragazzi già avere strumenti per l'analisi e l'importazione suona come. Questo è di gran lunga un sistema più semplice di quello che ETL presenterà e, per il problema che stai definendo, l'approccio corretto.

    
risposta data 21.05.2013 - 17:18
fonte
2

Oltre alla connettività fornita da REST interfaces o FTP trasferimenti di file, è necessario un certo grado di sicurezza dei dati e tolleranza ai guasti. Pertanto, la mia raccomandazione è quella di utilizzare AS2 come trasferimento di messaggi sicuro e affidabile. Il trasferimento di posta di XML messaggi (protetto tramite S/MIME certificati PKI X.509 ) potrebbe essere un po 'lento per te ma sarebbe un'opzione da considerare.

Ci sono alcuni aspetti da prendere in considerazione quando si seleziona la "migliore" soluzione business-to-business:

  • Affidabilità (elusione degli errori e gestione degli errori)
  • Flessibilità (tempo / sforzo per stabilire nuove connessioni)
  • Costi operativi
  • Monitoraggio (tecnico e aziendale)
  • Investimenti per software e hardware
  • Velocità effettiva (volume di dati per periodo)
  • Latenza (ritardo end-to-end per i messaggi)
  • Privacy
  • rilevamento / prevenzione delle frodi
  • Aderenza a norme e regolamenti
  • Disponibilità di consulenti esperti
  • Numero di messaggi e dimensione massima del messaggio
  • Operazioni sui messaggi richieste (convalida della firma, compressione, routing, mappatura, formato / controllo del contenuto)
  • Gestione dei dati dei partner (indirizzi, porte, formati, ecc.)
  • Archiviazione (per controlli e supporto)

Il dominio di ETL è la migrazione dei dati e "big data". Un tipico caso d'uso per ETL sta caricando migliaia di Gigabyte in un datawarehouse per scopi di business intelligence.

    
risposta data 21.05.2013 - 21:06
fonte

Leggi altre domande sui tag