Esistono diversi criteri di conformità e certificazione che menzionano il ripristino di emergenza "multi-failure". Qual è esattamente la definizione di questo? Una ricerca su google non ha dato una risposta chiara per me.
Esistono diversi criteri di conformità e certificazione che menzionano il ripristino di emergenza "multi-failure". Qual è esattamente la definizione di questo? Una ricerca su google non ha dato una risposta chiara per me.
I sistemi multi-failure tolerant sono esattamente questo; Sistemi progettati in modo da poter gestire più errori tramite ridondanze multiple / stratificate. Non troverai una definizione più dettagliata di questo in qualsiasi documento di RFP, conformità, audit, due-diligence poiché è un concetto generale e apparirà diverso per ogni sistema / servizio.
Per coloro che cercano un po 'di più:
Se esistono dubbi sulla tua capacità di gestire più errori, devi eseguire alcuni scenari. Ottieni una visione ad alto livello del tuo sistema, prova ad identificare ogni singolo punto di errore, se ci riesci, hai del lavoro da fare. Supponendo che tu non l'abbia fatto, identifica i tuoi domini di fallimento. Ad un livello elevato, questo di solito sarebbe un Data Center. Livelli inferiori possono essere rack, server collegati a un NAS / SAN comune, macchine virtuali su un host bare metal, singole applicazioni, ecc. Nei tuoi scenari, selezionare casualmente un pezzo di hardware, applicazione, rack o altro oggetto nell'architettura del sistema e contrassegnare è morto Contrassegna anche tutto ciò che si basa su quell'oggetto morto. Se si tratta di un rack, tutto in quel rack è morto, se si tratta di un cluster di database, ogni cosa che ha bisogno di dati da quella fonte è morta. Se è un data center, tutto è morto. Hai un'idea. Ora, con quell'oggetto morto, e il suo dominio di errore è morto, aggiungi un altro oggetto a caso alla lista, insieme alle sue dipendenze.
Se ti trovi a voler evitare determinati frammenti di oggetti in questi scenari, probabilmente hai del lavoro da fare. Se trovi che per la stragrande maggioranza delle combinazioni di due o tre oggetti casuali marcati offline, il tuo servizio è ancora online e i clienti sono felici, hai fatto bene. La maggior parte delle aziende sarà in grado di identificare almeno un paio di aree in cui è necessario migliorare.
Se disponi di tre data center con copie complete di server / app / storage in ogni dc, puoi facilmente controllare yes su questa domanda. Ma molte aziende non operano con tre siti capaci di produzione.
Come nota correlata, mentre AWS, Rackspace, ecc. offrono più zone di disponibilità, ecc ... Ad un livello elevato, ogni singolo fornitore di servizi è ancora un singolo dominio di errore. Questa è una nota comune che si apre su questi tipi di scenari. Questo può o non può essere un rischio che la tua azienda può accettare, ma dovresti almeno esserne consapevole e prendere attivamente questa decisione. Numerose società basate su cloud utilizzano più di un fornitore o utilizzano un provider di servizi cloud e risorse interne. È anche molto triste vedere un'azienda offline perché tutte le risorse in una zona di disponibilità sono state esaurite.
La Pianificazione della mitigazione dei disastri consiste nell'identificare i domini guasti e garantire che ci siano n + 1 repliche di qualsiasi sottosistema, dove "n" è il numero di errori che si verificano in un dato momento.
Leggi altre domande sui tag incident-response