L'uso eccessivo dello spazio di archiviazione è un problema pratico quando si memorizza solo il testo in un database nel 2015? [chiuso]

0

Inizialmente ho iniziato a scrivere una domanda su StackOverflow su un modo intelligente per ottimizzare il mantenimento di una cronologia delle versioni di grandi campi di testo in una tabella di database relazionale , probabilmente usando delta invece di incorrere nel costo di archiviazione di una copia completa del testo modificato in una tabella di controllo su ogni aggiornamento, che viene regolarmente suggerito come il modo più semplice per mantenere la cronologia delle versioni in un database.

Mentre stavo scrivendo, ho iniziato a chiedermi, cosa intendo esattamente per sostenere i costi di archiviazione, davvero?

Ho letto in alcuni punti su Internet che le opere complete di Shakespeare non compresso arrivano in giro 5 Mb , supponendo che sia vero, 1 TB potrebbe contenere approssimativamente 200.000 copie.

Questo è un grande libro, con un sacco di testo. 200.000 sono molte copie di quel libro. Anche un disco rotante da 1 TB non romperebbe esattamente la banca in questi giorni.

Quando parliamo di testo in un database nel 2015, è uno spreco di sforzi per pensare alla compressione, all'ottimizzazione o anche a ridurre deliberatamente gli input, o lo spazio di archiviazione è abbastanza economico ora che non dovrò mai preoccuparmi di colpendo un limite superiore, in pratica, e dovrei invece ottimizzare per il codice app e la semplicità dello schema?

    
posta davnicwil 16.07.2015 - 04:52
fonte

2 risposte

5

Non ho abbastanza punti per commentare, quindi lascerò una risposta.

Tieni presente che le opere di Shakespeare sono state scritte da un singolo umano per il consumo umano. Penso che dovresti espandere un po 'i tuoi orizzonti e prendere in considerazione il testo generato da una macchina di cui gli umani hanno solo l'intenzione di leggere parti di.

Ad esempio, se si guarda all'interno della directory / var / log / di un server Web attivo, viene mostrato un esempio realistico di dimensioni di file di testo che aumentano rapidamente senza controllo. Tanto che le persone tendono ad installare i demoni che comprimono e ruotano i file di registro su base regolare.

Se hai mai giocato con uno strumento di analisi di rete come tcpdump, di nuovo inizierai a divorare 10 o persino 100 s di gigabyte di spazio su disco in poche ore se proverai a catturare tutto il traffico HTTP che fluisce attraverso una rete attiva .

Quindi sì, a seconda di dove il testo proviene, lo spazio su disco utilizzato da un database di solo testo può essere sostanziale, anche nel 2015.

    
risposta data 16.07.2015 - 12:31
fonte
2

Calcola i costi di archiviazione. Aggiungi il costo di alta (er) disponibilità, backup, controllo della versione. Guarda cosa S3 o Backblaze o qualsiasi altra cosa farebbe pagare per questo importo e traffico; confronta con i tuoi server / NAS / SAN / datacenter (non conosco i tuoi volumi).

Quindi confrontalo con il costo di assumere uno sviluppatore / sysadmin qualificato per creare e mantenere le tue soluzioni: altamente ottimizzato e diretto. Basterebbero alcune figure del ballpark.

    
risposta data 16.07.2015 - 05:51
fonte

Leggi altre domande sui tag