Vogliamo memorizzare alcuni dati di varianti genomiche, ma ci sono alcuni problemi, più importanti come il problema dell'immensa dimensione e della variabilità dei dati.
-
I dati varianti possono essere enormi. Ad esempio, un singolo individuo, i dati delle varianti potrebbero in qualche giorno richiedere un milione di righe di dati in una tabella o richiedere un gigabyte di spazio di archiviazione non elaborato su disco. Moltiplicare questo su diverse migliaia di individui, e si potrebbe potenzialmente finire con terabyte vale la pena di informazioni che è necessario dare un senso.
-
Ogni client e / o sistema con cui ci integriamo esporrà o vorrebbe vedere i dati in modo leggermente diverso a seconda delle loro esigenze e casi d'uso. Ciò può potenzialmente portare a centinaia di campi che potremmo aver bisogno di archiviare, ognuno dei quali potrebbe dover essere in diverse configurazioni in base alle esigenze del cliente. Quindi questo modello di dati delle varianti dovrà tenerlo presente per rimanere facile da usare, espandibile e di più importante, scalabile a lungo termine.
Che cosa pensi sia meglio per un problema del genere? Avevamo intenzione di avere alcuni commenti in ogni tabella che puntano a un database esterno o addirittura a un file, dove salviamo gli enormi dati BLOB?