Stiamo eseguendo lavori i cui parametri provengono da una pagina Web e vengono eseguiti su file di grandi dimensioni in uno spark cluster. Dopo l'elaborazione, vogliamo visualizzare i dati indietro, scritti su file di testo usando
rdd.saveAsTextFile(path)
Abbiamo un ID di sessione che è una radice comune per le cartelle di output. Significa che è una cartella casuale ma collegata all'ID della sessione utente.
Quale è un buon modo per tenere traccia di, i puntatori ai diversi file, rimandare le pagine al front-end?
Significa che possiamo avere una lista di file e inviare i risultati a una pagina di monitoraggio (riassunto) e di dettaglio che mostra il contenuto dei file.