Plan oporavka nakon katastrofe: Kompletan vodič

Kako napraviti Disaster Recovery Plan

Plan oporavka nakon katastrofe postaje neizbježna tema čim zamislite ponedjeljak ujutro u kojem dolazite na posao i otkrivate da su serveri vaše tvrtke potpuno nedostupni.

Baza podataka s informacijama o klijentima je nestala. Sustav za naplatu ne radi.

Zaposlenici ne mogu pristupiti e-pošti. Svaki sat koji prolazi znači izgubljeni prihod, narušeno povjerenje klijenata i potencijalno nepopravljivu štetu za reputaciju.

Čak i sada dok čitate ovaj tekst, kolege u nekim tvrtkama proživljavaju taj scenarij.

Prema podacima tvrtke Gartner, prosječni trošak zastoja IT sustava kreće se između 5.600 i 9.000 dolara po minuti.

40 posto malih poduzeća nikada ne otvori svoja vrata nakon velike katastrofe, dok dodatnih 25 posto propadne unutar prve godine.

FEMA

Disaster recovery plan (DRP), odnosno plan oporavka nakon katastrofe, predstavlja vaš sigurnosni pojas u takvim situacijama.

Plan je dokumentirani, strukturirani pristup koji definira kako tvrtka u kojoj radite reagira na neplanirane incidente i kako što brže vraća kritične sustave u funkciju.

U kontekstu sveobuhvatne strategije zaštite važnih podataka, DRP je nezamjenjiva komponenta koja osigurava otpornost poslovanja na kibernetičke prijetnje, tehničke kvarove i prirodne katastrofe.

Naš članak je namijenjen IT administratorima, vlasnicima poduzeća, menadžerima kontinuiteta poslovanja te svima koji žele zaštititi svoju organizaciju od nepredvidivih katastrofa.

Kroz praktične korake, konkretne primjere i korisne predloške naučit ćete kako izraditi, implementirati i održavati efikasan plan oporavka, bez obzira na veličinu vaše tvrtke ili raspoloživi budžet.

Što je Disaster Recovery Plan i zašto je važan za vašu cyber sigurnost?

Definicija i strateška svrha

Disaster recovery plan / plan oporavka je formalni dokument koji sadrži detaljne upute za reagiranje na neplanirane incidente poput prirodnih katastrofa, kibernetičkih napada, hardverskih kvarova ili ljudskih pogrešaka.

Cilj plana je minimizirati posljedice prekida poslovanja i omogućiti što brži povratak na normalno funkcioniranje.

DRP nije samo tehnički dokument, već strateški poslovni alat koji obuhvaća ljude, procese i tehnologiju.

Dobar plan oporavka jasno definira tko je odgovoran za što, koje korake treba poduzeti i kojim redoslijedom te koje resurse treba koristiti u pojedinim scenarijima katastrofe.

Svaka ozbiljna cyber security tvrtka i security consulting stručnjak naglasit će da je DRP neodvojiv dio cjelokupnog sustava zaštite podataka i upravljanja informacijskom sigurnošću.

Bez njega, čak ni najnaprednija IT security rješenja ne mogu garantirati kontinuitet poslovanja nakon ozbiljnog incidenta.

Razlika između DRP-a i Business Continuity plana

Mnogi poistovjećuju disaster recovery plan s planom kontinuiteta poslovanja (Business Continuity Plan, odnosno BCP), no među njima postoji značajna razlika.

Plan kontinuiteta poslovanja (BCP) je širi koncept koji obuhvaća sve aspekte održavanja poslovnih operacija tijekom i nakon katastrofe. BCP uključuje strategije za ljudske resurse, komunikaciju s klijentima, alternativne poslovne procese, financijsko planiranje i mnoge druge aspekte.

Disaster recovery plan (DRP) je podskup BCP-a i fokusira se specifično na oporavak IT infrastrukture i podataka. DRP odgovara na ključno pitanje: kako ćemo vratiti naše tehnološke sustave u funkciju?

Prijetnje koje DRP mora pokriti

Efikasan disaster recovery plan mora uzeti u obzir širok spektar potencijalnih prijetnji iz domene cyber security zaštite i šire.

Nažalost, dobro znamo koliko prirodne katastrofe mogu biti razorne.

Jedna poplava može uništiti kompletnu serversku sobu u samo nekoliko sati.

Tehnološki incidenti obuhvaćaju hardverske kvarove, softverske pogreške, prekide napajanja i mrežne ispade.

Jedan neispravan tvrdi disk može uzrokovati gubitak podataka prikupljanih godinama.

Uz prirodne katastrofe, ljudske pogreške ostaju jedan od najčešćih uzroka gubitka podataka.

Slučajno brisanje datoteka, pogrešna konfiguracija sustava ili neovlašteni pristup mogu uzrokovati ozbiljne probleme čak i u organizacijama s naprednom tehnološkom zaštitom.

Elementi plana oporavka

Svaki efikasan DRP mora sadržavati nekoliko temeljnih elemenata koji čine okosnicu cjelokupnog procesa oporavka.

Recovery Time Objective (RTO)

Recovery Time Objective ili RTO je maksimalno prihvatljivo vrijeme nedostupnosti pojedinog sustava ili aplikacije. RTO odgovara na pitanje koliko dugo naš sustav smije biti nedostupan prije nego što to ozbiljno utječe na poslovanje?

Na primjer, ako za sustav e-pošte definirate RTO od 4 sata, to znači da vaš tim ima 4 sata od trenutka incidenta da vrati taj sustav u funkciju.

Za sustav online naplate, RTO bi mogao biti znatno kraći, primjerice 30 minuta, jer svaka minuta nedostupnosti znači izravni gubitak prihoda.

Recovery Point Objective (RPO)

Recovery Point Objective ili RPO definira maksimalnu prihvatljivu količinu podataka koja se može izgubiti mjereno u vremenu. RPO odgovara na pitanje do koje točke u vremenu moramo moći vratiti podatke?

Ako je RPO za vašu bazu podataka postavljen na 1 sat, to znači da morate imati mogućnost vraćanja podataka starih najviše 1 sat. Gubitak podataka od 24 sata bio bi neprihvatljiv.

Na vremenskoj crti, udaljenost od posljednjeg backupa do incidenta predstavlja RPO (koliko podataka gubite), dok udaljenost od incidenta do ponovnog pokretanja sustava predstavlja RTO (koliko dugo sustav ne radi).

Kritični sustavi i backup strategija

Svaka tvrtka ima sustave čiji prekid rada ima različite razine utjecaja na poslovanje. Identificiranje i rangiranje tih sustava prema kritičnosti temelj je svake disaster recovery strategije.

Backup, Unsplash
Backup, Unsplash

Backup strategija definira kako, koliko često i gdje se izrađuju sigurnosne kopije podataka. Bez pouzdane strategije za data protection, čak ni najbolji plan neće ispuniti svoju svrhu.

Tim za oporavak s jasno definiranim ulogama i odgovornostima osigurava da tijekom krize svatko zna što treba raditi.

Komunikacijski plan pak definira kako se informacije prenose tijekom incidenta, tko koga obavještava, kojim kanalima i u kojim vremenskim okvirima.

Izradite vlastiti plan oporavka

Korak 1: Formiranje tima za disaster recovery

Prvi korak je okupljanje pravog tima koji će plan izraditi, implementirati i održavati. Efikasan DRP zahtijeva multidisciplinarni pristup.

Tim treba uključivati sponzora iz višeg menadžmenta koji osigurava resurse i podršku, DRP koordinatora koji upravlja cjelokupnim procesom, IT administratore za mrežu, servere i baze podataka.

Uključite i predstavnike ključnih poslovnih jedinica koji razumiju poslovne procese, stručnjaka za informacijsku sigurnost koji procjenjuje kibernetičke prijetnje, pravnog savjetnika za regulatornu usklađenost te osobu za komunikacije.

Svaki član tima mora imati jasno definirane odgovornosti.

Iznimno je važno imenovati zamjenike za svaku ključnu ulogu. Ako primarno odgovorna osoba nije dostupna tijekom incidenta, zamjenik mora biti spreman preuzeti njezine zadatke bez odgode.

Korak 2: Analiza rizika i procjena utjecaja na poslovanje

Analiza rizika i procjena utjecaja na poslovanje (Business Impact Analysis, BIA) temelj su svakog disaster recovery plana. Ovaj korak pomaže identificirati prijetnje, procijeniti njihovu vjerojatnost i razumjeti potencijalni utjecaj na poslovanje.

Napravite sveobuhvatan popis svih mogućih prijetnji za vašu organizaciju.

Uzmite u obzir geografsku lokaciju, industriju u kojoj djelujete te specifičnosti vaše IT infrastrukture. Za svaku prijetnju procijenite vjerojatnost na skali od 1 do 5 i potencijalni utjecaj na istoj skali, a zatim izračunajte ukupni rizik množenjem tih dviju vrijednosti.

Primjerice, ransomware napad mogao bi imati vjerojatnost 4 i utjecaj 5, što daje rizik od 20, uz mjere ublažavanja poput antivirusne zaštite, edukacije zaposlenika i redovitih backupa.

Hardverski kvar servera mogao bi imati vjerojatnost 3 i utjecaj 4, što daje rizik od 12, uz redundantne sustave i jamstvo na hardver kao mjere ublažavanja.

Podijelite sustave u kategorije prema kritičnosti.

  • Tier 1 su kritični sustavi bez kojih poslovanje ne može funkcionirati niti kratko razdoblje, poput baza podataka klijenata i sustava za obradu plaćanja.
  • Tier 2 su važni sustavi čiji prekid značajno otežava rad, ali poslovanje može kratkoročno funkcionirati bez njih, poput e-pošte i CRM sustava.
  • Tier 3 su standardni sustavi čiji prekid uzrokuje neugodnost, ali ne ugrožava ključne procese.

Korak 3: Definiranje RTO i RPO za svaki sustav

Na temelju analize rizika definirajte konkretne RTO i RPO vrijednosti za svaki sustav.

Razgovarajte s vlasnicima poslovnih procesa i utvrdite koliko dugo organizacija može poslovati bez pojedinog sustava.

Sljedeće, koliki je financijski gubitak po satu nedostupnosti, koliki gubitak podataka je prihvatljiv i postoje li regulatorni zahtjevi koji definiraju maksimalno dopušteno vrijeme nedostupnosti.

Za online trgovinu, RTO sustava za obradu narudžbi mogao bi biti 1 sat, a RPO 15 minuta, jer svaka minuta nedostupnosti znači izgubljene narudžbe.

Za proizvodno poduzeće, RTO ERP sustava mogao bi biti 4 sata, a RPO 1 sat, jer proizvodnja može kratkoročno raditi s papirnatom dokumentacijom.

Za odvjetničku kancelariju, RTO sustava za upravljanje dokumentima mogao bi biti 8 sati, a RPO 24 sata, budući da je većina dokumenata dostupna i u fizičkom obliku.

Backup, računalo, Unsplash
Backup, računalo, Unsplash

Korak 4: Kreiranje backup strategije

Backup strategija čini okosnicu svakog disaster recovery plana i ključni je element data protection pristupa. Bez pouzdanih sigurnosnih kopija, oporavak nakon katastrofe postaje nemoguć.

Zlatni standard u industriji je pravilo 3-2-1. Ono nalaže da imate tri kopije podataka (original plus dvije sigurnosne kopije), na dva različita medija za pohranu (primjerice lokalni disk i cloud) te jednu kopiju na udaljenoj lokaciji.

Da objasnimo, postoje tri osnovna tipa backupa:

Potpuni backup je kompletna kopija svih podataka, najsigurnija opcija koja zahtijeva najviše vremena i prostora.

Inkrementalni backup kopira samo podatke promijenjene od posljednjeg backupa bilo koje vrste, najbrži je i najeficijeniji, ali oporavak zahtijeva primjenu svih inkrementalnih backupa redom.

Diferencijalni backup kopira sve podatke promijenjene od posljednjeg potpunog backupa i predstavlja kompromis između brzine i jednostavnosti oporavka.

U zadnje vrijeme Cloud backup postaje sve popularniji izbor. Nudi niže početne troškove, automatsku skalabilnost, geografsku distribuciju podataka te automatizirane procese.

Među popularnim rješenjima izdvajaju se Veeam Backup and Replication, Acronis Cyber Protect, AWS Backup, Azure Backup te Google Cloud Backup and DR.

Učestalost izrade sigurnosnih kopija treba uskladiti s RPO vrijednostima. Ako je RPO za bazu podataka 1 sat, backupi se moraju izrađivati barem svakih sat vremena.

Korak 5: Dokumentiranje procedura za oporavak

Dokumentiranje detaljnih procedura za oporavak svakog kritičnog sustava najvažniji je, a često zanemareni dio disaster recovery plana. Tijekom krize nema vremena za improvizaciju. Obavezno svaki korak mora biti jasno zapisan.

Za svaki sustav kategorije Tier 1 i Tier 2 izradite detaljne korake za oporavak.

Dokumentacija treba biti dovoljno jasna da je može slijediti kvalificirana osoba koja nije svakodnevno uključena u upravljanje tim sustavom.

Dokumentirana procedura za oporavak poslužitelja baze podataka trebate raditi na sljedeći način. Za početak provjerite stanje hardvera i utvrdite uzrok kvara.

Zatim, aktivirajte zamjenskog poslužitelja ako je hardver neispravan, instalirajte operacijski sustav koristeći standardiziranu konfiguraciju.

Nakon toga slijedi instalacija softvera baze podataka s odgovarajućim verzijama i licencama, vraćanje podataka iz posljednjeg backupa.

Na kraju dodajte provjeru integriteta baze podataka pokretanjem dijagnostičkih upita, testiranje povezivosti s aplikacijama koje koriste bazu podataka te obavještavanje DRP koordinatora o statusu oporavka.

Uz detaljne procedure izradite kratke kontrolne liste koje služe kao brza referenca.

Na popis ne smijete zaboraviti dodati zamjenike, detaljne procedure oporavka za svaki kritični sustav, lokacije svih backupa, pristupne podatke sigurno pohranjene, komunikacijski plan s predlošcima poruka, popis dobavljača i partnera, inventar hardvera i softvera, plan za alternativnu lokaciju rada te raspored testiranja i održavanja plana.

Vizualni prikaz procesa oporavka također je iznimno koristan.

Dijagram toka trebao bi prikazivati slijed od detekcije incidenta, preko procjene opsega i ozbiljnosti, odluke o aktivaciji DRP-a, obavještavanja koordinatora, aktiviranja tima za oporavak, pokretanja komunikacijskog plana, provođenja procedura oporavka prema prioritetima, praćenja napretka, verifikacije sustava, pa sve do post-incident analize.

Korak 6: Uspostavljanje alternativnih lokacija

Kada primarna lokacija postane nedostupna, organizacija treba alternativno mjesto s kojeg može nastaviti rad. Postoje tri osnovna tipa alternativnih lokacija.

Hot site je potpuno opremljena replika primarne lokacije s kontinuirano repliciranim podacima. Vrijeme aktivacije mjeri se u minutama do sati. Troškovi su visoki, ali je idealan za kritične sustave s niskim RTO-om.

Warm site je djelomično opremljena lokacija s periodički ažuriranim podacima. Vrijeme aktivacije kreće se od sati do dana, a troškovi su umjereni. Prikladan je za sustave s umjerenim RTO-om.

Cold site je prazan prostor s osnovnom infrastrukturom, bez instaliranog hardvera, koji zahtijeva vraćanje podataka iz backupa. Vrijeme aktivacije mjeri se u danima do tjedana, ali su troškovi najniži.

Cloud computing je revolucionirao disaster recovery, čineći ga dostupnim i manjim organizacijama.

Cloud DR rješenja poput DRaaS-a (Disaster Recovery as a Service) omogućuju repliciranje sustava u oblak i njihovo brzo pokretanje u slučaju katastrofe.

Prednosti uključuju plaćanje prema potrošnji, geografsku distribuciju podataka, brzo skaliranje resursa i automatizirani failover.

Korak 7: Kreiranje komunikacijskog plana

Učinkovita komunikacija tijekom krize može značiti razliku između kontroliranog oporavka i potpunog kaosa.

Za internu komunikaciju definirajte primarni i sekundarni kanal (primjerice e-pošta kao primarni, SMS kao sekundarni), pripremite predloške poruka za različite scenarije i odredite učestalost ažuriranja informacija.

Za eksternu komunikaciju odredite osobu zaduženu za komunikaciju s medijima, pripremite predloške za obavijesti klijentima i definirajte redoslijed obavještavanja.

Predložak obavijesti klijentima mogao bi glasiti:

Poštovani, obavještavamo vas da je naša tvrtka doživjela tehnički incident. Naš tim aktivno radi na rješavanju situacije. Trenutni status je sljedeći: (opis stanja).

Očekivano vrijeme oporavka: (procjena). Utjecaj na vaše usluge: (opis). Sljedeće ažuriranje možete očekivati (vrijeme ili datum).

Za hitna pitanja kontaktirajte odgovornu osobu na navedeni broj telefona ili e-mail adresu. Ispričavamo se zbog neugodnosti i zahvaljujemo na razumijevanju.

Testiranje disaster recovery plana

Plan koji nikada nije testiran nije ništa bolji od plana koji ne postoji.

Testiranje je jedini način da utvrdite funkcionira li vaš DRP u praksi i predstavlja ključnu komponentu zrelih praksi cyber security-ja.

Testirajte i to obavezno

Testiranje otkriva slabosti i propuste koje je nemoguće identificirati samo čitanjem dokumentacije.

Naići ćete na zastarjele kontaktne informacije, procedure koje ne funkcioniraju kako je zamišljeno, backupove koji se ne mogu uspješno restaurirati, neočekivane međuovisnosti među sustavima te nedovoljne resurse za oporavak unutar definiranog RTO-a.

Prema istraživanju tvrtke Spiceworks, čak 23 posto organizacija nikada ne testira svoje backupove, a od onih koje testiraju, 37 posto je iskusilo neuspješan oporavak.

Tipovi testova i preporučena učestalost

Tabletop vježbe su najjednostavniji oblik testiranja u kojem tim prolazi kroz zamišljeni scenarij korak po korak, bez stvarnog pokretanja oporavka. Preporučuje se provoditi ih kvartalno.

Simulacije podrazumijevaju provođenje stvarnih koraka oporavka u kontroliranom okruženju koje ne utječe na produkcijske sustave. Preporučuje se provoditi ih polugodišnje.

Potpuni testovi rade stvarnu aktivaciju plana oporavka, uključujući prebacivanje na alternativnu lokaciju i pokretanje sustava iz backupa. Preporučuje se da ih prodovite jednom godišnje.

Testove restauracije backupa trebate provoditi mjesečno.

Svaki test treba rezultirati detaljnim izvješćem s opisom scenarija, rezultatima, identificiranim problemima, preporukama za poboljšanja i planom implementacije s rokovima.

Alati, standardi i resursi za DRP

Softverska rješenja

Veeam Backup and Replication vodeće je rješenje za backup i disaster recovery virtualnih, fizičkih i cloud okruženja s automatiziranim oporavkom i verifikacijom backupa.

Acronis Cyber Protect kombinira backup, disaster recovery i kibernetičku zaštitu u jednom rješenju, posebno pogodan za mala i srednja poduzeća.

Predlažemo i Zerto. Specijalizirano je rješenje za kontinuiranu replikaciju s izuzetno niskim RPO vrijednostima mjerenim u sekundama.

Također, AWS Elastic Disaster Recovery i Azure Site Recovery omogućuju replikaciju sustava u oblak s minimalnim utjecajem na produkcijske performanse.

Standardi i okviri

ISO 22301 je međunarodni standard za upravljanje kontinuitetom poslovanja koji pruža okvir za uspostavljanje i kontinuirano unapređenje sustava upravljanja.

NIST SP 800-34 pruža smjernice za izradu planova kontinuiteta za IT sustave, primjenjive i za privatni sektor.

ISO 27031 nadopunjuje ISO 22301 specifičnim uputama za ICT komponentu pripremljenosti za kontinuitet poslovanja.

Česte greške i kako ih izbjeći

Nedostatak podrške vrhovnog menadžmenta

Bez aktivne podrške uprave, DRP projekt nema potrebne resurse ni autoritet. Rješenje je prezentirati upravi konkretne podatke o financijskim rizicima i pokazati povrat investicije u usporedbi s troškovima potencijalnog zastoja.

Neadekvatno testiranje

Mnoge organizacije izrađuju plan, ali ga nikada ne testiraju. Počnite s jednostavnim tabletop vježbama i postupno prelazite na kompleksnije simulacije. Tretirajte svaki neuspješan test kao vrijednu priliku za učenje.

Testiranje, test, pravilo 3-2-1, Unsplash
Testiranje, test, pravilo 3-2-1, Unsplash

Zastarjela dokumentacija

Plan izrađen prije tri godine ne odražava trenutno stanje. Uspostavite formalni proces pregleda i ažuriranja s definiranim odgovornim osobama i rokovima.

Zanemarivanje ljudskog faktora

Plan koji se fokusira isključivo na tehnologiju zanemaruje ljude koji moraju provesti oporavak. Redovito provodite edukaciju i simulacije te dokumentirajte procedure dovoljno detaljno da ih može slijediti i zamjenska osoba.

Podcjenjivanje budžeta

Nedovoljni resursi rezultiraju kompromisima u kvaliteti zaštite. Izradite realan proračun i usporedite ga s potencijalnim gubicima. Često se pokazuje da je investicija u DRP samo mali dio mogućih gubitaka.

Studija slučaja: Kako je DRP spasio poslovanje

DataServe, srednje veliko IT poduzeće koje pruža usluge hostinga za oko 200 klijenata, doživjelo je u lipnju 2023. ozbiljan ransomware napad koji je kriptirao podatke na glavnim produkcijskim serverima.

Godinu dana ranije tvrtka je implementirala sveobuhvatni disaster recovery plan s automatiziranom kontinuiranom replikacijom podataka na udaljenu lokaciju, dnevnim inkrementalnim i tjednim potpunim backupovima prema pravilu 3-2-1, jasno definiranim ulogama i procedurama te redovitim kvartalnim tabletop vježbama.

Kada je u subotu u 03:17 sustav za detekciju anomalija zabilježio neuobičajenu aktivnost, dežurni inženjer je u roku od 15 minuta identificirao napad i prema DRP proceduri izolirao pogođene servere. Tim za oporavak aktiviran je u 04:00.

Zahvaljujući kontinuiranoj replikaciji, gubitak podataka ograničen je na samo 12 minuta. Svi kritični sustavi vraćeni su u funkciju u roku od 3 sata. Do ponedjeljka ujutro sve je funkcioniralo normalno.

Za usporedbu, konkurentska tvrtka slične veličine koja je mjesec dana ranije doživjela sličan napad bez formalnog DRP-a oporavljala se 11 dana, izgubila podatke za posljednja 72 sata, 18 klijenata prešlo je drugom pružatelju usluga, a ukupni trošak premašio je 500.000 eura.

Ovaj slučaj jasno pokazuje da se investicija u disaster recovery, automatizacija detekcije i oporavka, redovito testiranje i kvalitetan komunikacijski plan višestruko isplate.

Angažiranje stručne cyber security tvrtke ili security consulting partnera za pomoć pri izradi i testiranju DRP-a može biti ključna odluka koja štiti budućnost vašeg poslovanja.

Zaključak

Izrada plana je samo početak. Ključ uspjeha leži u redovitom testiranju i kontinuiranom ažuriranju. Plan koji se ne testira i ne održava jednako je beskoristan kao plan koji ne postoji.

Vaši sljedeći koraci trebali bi biti sljedeći. Danas procijenite trenutno stanje vaše organizacije i provjerite jesu li vaši backupi pouzdani.

Ovaj tjedan formirajte inicijalni tim i dogovorite prvi sastanak. Zatim, provedite analizu rizika i BIA te definirajte RTO i RPO za kritične sustave. U sljedeća tri mjeseca izradite kompletni plan i provedite prvi tabletop test.

Ako nemate interne resurse ili stručnost za izradu sveobuhvatnog plana, razmotrite angažiranje specijalizirane cyber security tvrtke koja nudi security consulting usluge i može vam pomoći u svim fazama procesa, od analize rizika do implementacije i testiranja.

Počnite raditi na svom disaster recovery planu već danas.

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)