Come devo gestire le persone / i tecnici durante un incidente / epidemia?

10

Supponiamo che ci sia un incidente che richiede una risposta immediata, come un'epidemia di virus via e-mail, Cryptolocker che crittografa attivamente i file o un attacco DOS.

Come dovrei approcciarlo in un modo che non solo sarebbe valutato in termini di clienti (SLA, ecc.), ma sarebbe anche visualizzato positivamente da tutti i livelli di management e dai miei colleghi?

Suppongo che ci siano le seguenti fasi:

  • Identificazione
  • Il contenimento
  • Soluzione

A volte un incidente ci impone di andare indietro e ri-identificare il problema, (ad esempio, non è un problema del server web, è un attacco DOS), e spesso un tecnico ben intenzionato lavorerà su attività che si sovrappongono e potrebbero non aiutare la situazione, o peggio, potrebbero ostacolare altri problemi. (ad esempio, un ripristino SAN sullo stesso LUN della produzione, prestazioni di abbattimento)

Domanda

Dal momento che ci sono spesso molte parti mobili per risolvere i problemi, quale processo posso considerare come guida per dare al processo di contenimento e riparazione più struttura?

Alcune cose che posso pensare includono:

  • Identifica gli utenti interessati, gli stakeholder aziendali
  • Identifica le persone, i fornitori che stanno lavorando alla soluzione
  • Comunicare le attività e lo stato di tutte le attività tra persone e venditori che lavorano alla soluzione
  • Condividi lo stato appropriato del pubblico (helpdesk, gestione, executive)

Ci dovrebbe essere una sorta di guida che ha già scritto che risolve questo problema, ad es. in un "runbook" di sorta, ma non sono sicuro di come si chiamerebbe. I termini di ricerca sarebbero apprezzati

    
posta random65537 05.03.2015 - 02:12
fonte

1 risposta

1

Pianifica la tua continuità aziendale. Dovresti identificare le persone giuste per i servizi mission critical e non mission-mission, quali sistemi contengono le informazioni più importanti, chi può decidere quando portare i sistemi offline e con quale soglia.

Buona panoramica su (wikipedia) [ link

ITIL ha un'infinità di informazioni su questo:

Attività di ICM definite da ITIL v3

  • Identificazione - rileva o segnala la registrazione dell'incidente - il l'incidente è registrato in un sistema ICM
  • Categorizzazione - l'incidente è classificato per priorità, SLA ecc. attributi definiti sopra
  • Priorità: l'incidente ha la priorità per un migliore utilizzo delle risorse e il tempo dello staff di supporto
  • Diagnosi - rivela il sintomo completo dell'incidente
  • Escalation - dovrebbe essere lo staff di supporto bisogno di supporto da altre unità organizzative
  • Investigazione e diagnosi - se nessuna soluzione esistente dal passato potrebbe essere trovato il l'incidente è investigato e la causa principale è stata trovata
  • Risoluzione e ripristino: una volta trovata la soluzione, l'incidente è stato risolto
  • Chiusura degli incidenti: la voce di registro dell'incidente nel sistema ICM è chiuso fornendo lo stato finale dell'incidente [5]

Responsabilità dell'incidente

  • comprendere qualsiasi incidente / errore a livello di base (almeno) per utilizzare le competenze appropriate (risorse)
  • guidare il team di ripristino a raccogliere sufficienti le informazioni per avviare un'analisi mantengono una visione generale del incidente (mantenendo l'attenzione sul restauro tramite una soluzione alternativa)
  • capire la funzionalità di più aree (RAN, Core Network, VAS, BSS / OSS)
  • ottenere indicazioni sulle priorità per le squadre che iniziano il lavoro di recupero imprevisto urgente immediato
risposta data 31.03.2015 - 19:47
fonte