Per il nostro sviluppo lavoriamo principalmente su AWS. Disponiamo di dati su S3 con diversi livelli di sicurezza, pungolo, integrazione, sviluppo ecc.
Quando lavoriamo con i dati, spesso dobbiamo eseguire analisi ad-hoc. Potremmo non sapere quale sarà la struttura finale delle directory quando inizieremo. Potremmo essere in esecuzione su dataset di grandi dimensioni che falliscono nei passaggi intermedi e dobbiamo continuare a metà.
Tuttavia, non abbiamo dove possiamo eliminare file / cartelle. Dobbiamo semplicemente sovrascrivere i dati esistenti (sostituirli, non eliminarli) o fare qualcosa di simile
s3://some/analysis/<date1>,s3://some/analysis/<date2>s3://some/analysis/<date3>
Sebbene questo soddisfi tecnicamente i requisiti che ci consentono di lavorare, rende il lavoro più impegnativo, in particolare nella situazione ad hoc.
Ad esempio, potrei eseguire qualcosa che ha funzionato su una settimana di dati localmente, ma ha alcuni problemi di memoria su dati di 1 anno. Quindi, 1/10 del modo in cui si commette errori. Ok, ora devo iniziare un'altra esecuzione in un'altra directory perché il software che stiamo usando non consente la sostituzione (la sostituzione è una cancellazione e quindi la scrittura) e può verificarsi un errore in qualsiasi fase del percorso, potrei dover cambiare qualcosa a metà e alla fine ho molte directory in cui i miei dati sono sparsi.
Sì, ho fatto il mio lavoro, ma il processo è incline agli errori perché devo tenere traccia delle versioni delle mie analisi e alla fine mettere tutto insieme.
Non sono mai stato in un ambiente in cui non potevo eliminare i file qualsiasi , anche nella mia directory di lavoro personale. (Non abbiamo requisiti di registro di controllo su analisi casuali, o del tutto) L'amministratore di sicurezza dice che questa è una pratica standard e dovremmo esaminare le migliori pratiche per la sicurezza.
Sembra che sia in grado di armare il principio del minimo privilegio perché, come ho detto, posso tecnicamente svolgere il mio lavoro ... Solo in un modo molto incline agli errori, non efficiente, in senso contrario.
Ovviamente, la sicurezza e la convenienza sono spesso alla fine, ma la mia domanda è: supponendo che non vi sia alcun requisito assoluto per salvare i set di dati intermedi dall'analisi, è prassi normale non consentire l'eliminazione dei file ovunque ?
Modifica: lavoro per un'azienda pubblicitaria. Nessuno dei dati a cui mi riferisco qui ha informazioni personali. Inoltre, i dati in queste cartelle vengono eliminati 30 giorni dopo la creazione.