Lavoro per un'azienda che ha diversi prodotti e diversi database e tonnellate di dati.
Per unire un po 'tutti questi dati, quello che abbiamo fatto spostando alcuni dei nostri dati in Amazon Redshift (un data warehouse). Archiviamo il più possibile (tutto molto de-normalizzato). Consideriamo il redshift dei nostri dati di "origine", dal momento che abbiamo modificato molte procedure per inserire quasi tutto il bulk direttamente nel data warehouse prima di passare a qualsiasi altro database.
La parte che ho difficoltà a capire è che pensavo che un data warehouse potesse essere d'aiuto nella segnalazione.
Con Amazon Redshift, hanno disabilitato le stored procedure, i ctes ricorsivi, le funzioni definite dall'utente e un sacco di altre cose ... il che rende difficile riportare i dati.
Quello che facciamo in molte situazioni, è esportare i dati da redshift in un altro database, solo così possiamo eseguire alcuni report (non tutti i dati, esportiamo solo i dati rilevanti per il report).
Alcuni altri report che vengono eseguiti abbiamo impostato programmi che generano in modo dinamico lo sql e inviano la query ad hoc per ottenere i dati di cui abbiamo bisogno, questi programmi diventano un bel casino dopo troppe modifiche (concatenando le stringhe per rendere lo sql, difficile da testare senza solo eseguire il programma ect)
Questo sembra tutto sbagliato, stiamo usando il concetto di data warehousing sbagliato?