Sto lavorando su una pipeline di machine learning in cui dobbiamo calcolare determinate misure sullo streaming dei dati. Ogni giorno, nuovi dati grezzi entrano nella nostra pipeline. Per aggiornare le nostre funzionalità, dobbiamo eseguire un ETL che carichi l'intero dato grezzo e ricalcoli le funzionalità. Sto cercando un framework per pensare a come possiamo aggiornare in modo incrementale le nostre funzionalità quando arrivano nuovi dati senza ricalcolarlo da zero.
Si noti che le funzioni che usiamo tendono ad avere le seguenti proprietà:
- Di solito sono conteggi, medie e rapporti.
- Alcune funzionalità sono calcolate per gli ultimi n giorni. n è solitamente 7, 30 o 60.
Voglio sapere due cose. È un approccio incrementale praticabile, in cui eseguiamo solo un ETL per caricare i dati provenienti dall'ultimo ETL? Se sì, come possiamo archiviare i metadati richiesti per lo stesso?