Sono stato in una conversazione in corso riguardante un progetto che stiamo per intraprendere al mio posto di lavoro. Il progetto riguarda l'integrazione dei dati. I nostri clienti vogliono essere in grado di integrare i nostri dati con i loro, inviando i dati dai loro sistemi ai nostri, o ottenendo dati dal nostro sistema nel loro. Non credo che stiamo parlando di "big data". Il nostro intero database è di meno di 20 concerti.
Anche i trasferimenti individuali dai nostri clienti saranno molto piccoli - dell'ordine di 10s di MB, se non di minori.
Uno degli obiettivi principali di questo progetto è minimizzare la quantità di lavoro che deve essere eseguita dal cliente, che tende a non essere molto tecnico. In passato, questo problema è stato "risolto" con l'invio da parte dei nostri clienti di un file xml trasformato da xlst prima di essere salvato nel database o tramite un'applicazione WCF per l'esportazione dei dati. Queste non sono viste come buone soluzioni.
Il mio primo pensiero è stato quello di creare un'interfaccia REST con strumenti di monitoraggio e librerie molto validi per i nostri clienti.
Un'altra opzione che viene presa in considerazione sono strumenti grandi come IBM Datastage o Pentaho (o simili).
Il mio problema personale è che quando guardo questi strumenti, non vedo come possono aiutare. Sembra che siano finalizzati alla creazione di trasferimenti di dati su larga scala che si verificano su una pianificazione regolare con un determinato formato. L'aggiunta di una nuova importazione / esportazione utilizzando quegli strumenti richiede molte impostazioni sia per noi che per il cliente, che stiamo cercando di evitare. Inoltre, non sono davvero utili per gli aggiornamenti dei dati in tempo reale. Infine, sembra che stiano cercando di uccidere una formica con un lanciafiamme - sono pesi massimi per un problema di peso leggero.
Al contrario, con una configurazione REST, i dati possono essere trasferiti ogni volta che necessario, e l'installazione deve avvenire solo in un'area molto piccola.
Mi sto perdendo qualcosa quando si tratta di queste soluzioni ETL? Non sono giusto con loro?