Sto implementando un sistema che è fondamentalmente una pipeline di documenti XML: i documenti XML vengono recuperati su Internet, convalidati, ulteriormente elaborati ecc. fino a quando non vengono ingeriti in un database relazionale (non XML). Dopo l'ingestione nel database possono essere scartati.
Poiché i vari componenti della pipeline sono in qualche modo indipendenti l'uno dall'altro, voglio utilizzare un numero di applicazioni separate, ognuna delle quali esegue un "passo" nella pipeline. Quale dovrebbe essere il ragionamento alla base della scelta del file system per la condivisione dei dati tra le suddette applicazioni rispetto ad alcuni database noSQL?
I dati da condividere sono in gran parte file XML e il volume totale di dati che passa attraverso la pipeline è di circa 10 gigabyte al giorno.