Domanda di ricerca software ETL

1

Dove lavoro, usiamo una soluzione ETL interna che è di casa ed è in circolazione da 5-10 anni. Sono ancora nuovo nel mio lavoro di analisi dei dati, ma mi chiedevo gli strumenti ETL che sono là fuori. Questa è una nuova area per me.

La mia situazione e il mio lavoro sono fondamentalmente

  • scavare in una serie di database (DB2, SQL2005, Citrix, database Cobol antico con un wrapper SQL in alto, MySQL, ecc.)
  • Raccogli le informazioni desiderate.
  • combina i diversi set di dati in un unico set.
  • output in un file di scelta (CSV, separatore, separatore di tubi, XLS, ecc.)
  • FTP al cliente.

Immagino quale sia la mia vera domanda, visto il mio lavoro, quali sono alcune buone suite ETL che posso guardare e confrontare con i miei strumenti interni? Questo è più per cercare alcune altre opzioni. In definitiva, suggerirei una nuova soluzione o ottenere opzioni / idee per migliorare la nostra attuale app.

    
posta WernerCD 03.02.2011 - 16:29
fonte

3 risposte

5

Pentaho Data Integration (aka Kettle) è uno strumento ETL open-source che fa parte della più grande suite Pentaho BI.

Ho usato quasi nell'esatto modo in cui hai descritto. Posso mettere insieme una rapida richiesta ad hoc in circa 15 minuti o posso passare giorni e settimane mettendo insieme un insieme di trasformazioni molto robusto per creare una configurazione di lavoro quotidiano.

Ha il vantaggio di supportare sia un'interfaccia della riga di comando che una GUI per lo sviluppo di trasformazioni e lavori. Può essere eseguito standalone o con un cluster di server slave.

L'ho trovato molto flessibile con un sacco di supporto e slancio della community.

Alcune suite ETL commerciali da esaminare sono IBM Infosphere Datastage e Informatica PowerCenter . Ho supportato Datastage in precedenza e Informatica è utilizzato per molti grandi progetti di BI.

    
risposta data 03.02.2011 - 17:32
fonte
2

Ci sono tonnellate di strumenti ETL proprietari e open source. Ma la vera domanda è perché hai bisogno di cambiare il tuo sistema attuale?

Stai facendo troppe cose manualmente? Il set-up è veramente lento o soggetto a errori? Non funzionerà sul nuovo hardware in cui la tua azienda vuole migrare? Sono tutti buoni motivi per indagare su opzioni esterne.

Ma se vuoi solo vedere ciò che è disponibile solo per sostituire il sistema attuale con qualcosa di whizbang, è una vendita dura come una proposta commerciale. La maggior parte dei manager non è disposta a modificare un sistema vecchio ma perfettamente funzionante per uno più recente, poiché i costi ei rischi sono raramente giustificati.

    
risposta data 03.02.2011 - 16:40
fonte
0

I tre principali contendenti commerciali sono: -

Informatica PowerCenter - probabilmente il migliore in assoluto, un'interfaccia grafica molto pulita e API molto coerenti.

IBM InfoSphere DataStage - il "nonno" di questi strumenti. È in circolazione da molto tempo quindi è altamente sintonizzato e ha molte opzioni. Viceversa, soffre di implementazioni e API inconsistenti in quanto gli stili di codifica sono cambiati nel corso degli anni. Anche l'eccellente "edizione parallela" è davvero un altro prodotto imbullonato.

AbIntio della società con lo stesso nome - Non ho mai lavorato con questo personalmente e la società è incredibilmente segreta, quindi è difficile ottenere dettagli finché non sei un vero cliente. Ma ho la buona autorità che questo è il più veloce degli strumenti e in grado di spostare enormi volumi di dati in un doppio tempo veloce.

Ricordati che si tratta di articoli di grandi dimensioni.

    
risposta data 08.12.2011 - 08:23
fonte

Leggi altre domande sui tag