Forretningskontinuitetsplan (IT)

I IT sigter en forretningskontinuitetsplan ( BCP ) med at garantere virksomhedens overlevelse i tilfælde af en større katastrofe, der påvirker it-systemet. Det handler om at genstarte virksomheden så hurtigt som muligt med minimalt datatab. Denne plan er et af de væsentlige punkter i en virksomheds it-sikkerhedspolitik .

Trin til at oprette en kontinuitetsplan

For at en kontinuitetsplan virkelig skal tilpasses virksomhedens krav, skal den være baseret på en risikoanalyse og en konsekvensanalyse:

Risikoanalysen begynder med en identifikation af trusler mod it. Trusler kan være af menneskelig oprindelse (bevidst angreb eller klodsethed) eller af "naturlig" oprindelse; de kan være interne i virksomheden eller eksterne. Risikoen som følge af de identificerede trusler udledes derefter; vi måler den mulige virkning af disse risici. Endelig besluttes det at gennemføre risikoreducerende foranstaltninger ved at fokusere på dem, der har en betydelig indvirkning. For eksempel, hvis risikoen for udstyrsfejl kan lamme alt, er der installeret overflødigt udstyr. De implementerede risikobegrænsende foranstaltninger reducerer risikoniveauet, men de annullerer det ikke: der er altid en resterende risiko, der vil blive dækket enten af kontinuitetsplanen eller på anden måde (forsikring, endda risikomodtagelse)

Konsekvensanalyse består i at evaluere virkningen af en risiko, der materialiserer sig, og bestemme, hvornår denne indvirkning er utålelig, generelt fordi den bringer væsentlige processer (derfor overlevelse) i virksomheden i fare. Konsekvensanalysen udføres på baggrund af katastrofer: vi betragter ekstreme katastrofer, endda usandsynlige (for eksempel total ødelæggelse af bygningen), og vi bestemmer de økonomiske, menneskelige, juridiske osv. Virkninger for afbrydelsens varighed længere og længere indtil den maksimale tålelige effekt er nået. Hovedresultatet af konsekvensanalysen er derfor et tidsmæssigt nulpunkt: det er den maksimalt tilladte varighed af en afbrydelse af hver proces i virksomheden. Ved at tage højde for de computerressourcer (netværk, servere, pc'er osv.), Som hver proces afhænger af, kan vi udlede den maksimale utilgængelighedstid for hver af disse ressourcer, med andre ord den maksimale tid, hvorefter en computerressource skal efter at have været tilbage i funktion

En vellykket risikoanalyse er resultatet af kollektiv handling, der involverer alle aktører i informationssystemet: teknikere, brugere og ledere.

Valg af sikkerhedsstrategi

Der er flere metoder til at sikre kontinuiteten i et informationssystems service. Nogle er tekniske (valg af værktøjer, metoder til adgangsbeskyttelse og sikkerhedskopiering af data), andre er baseret på brugernes individuelle adfærd (nedlukning af computerstationer efter brug, rimelig brug af kapacitet til informationsoverførsel, overholdelse af sikkerhedsforanstaltninger), på kollektive regler og viden (brandbeskyttelse, sikkerhed for adgang til lokaler, kendskab til virksomhedens interne it-organisation) og i stigende grad om aftaler med tjenesteudbydere (kopi af programmer, levering af nødudstyr, nedbrydningshjælp).

Metoderne skelnes mellem forebyggende (undgå diskontinuitet) og helbredende (genoprette kontinuitet efter en katastrofe). Forebyggende metoder foretrækkes ofte, men det er en nødvendighed at beskrive helbredende metoder, fordi intet system er 100% pålideligt.

Præventive målinger

Som en del af hosting af deres infrastruktur og / eller applikationer fremkalder mere end 50% af de organisationer, som MARKESS International stillede spørgsmål til i 2008, et behov for følgende løsninger for at sikre kontinuiteten i servicen af deres forretningsapplikationer og IT- og telekommunikationsinfrastrukturer underliggende:

Sikkerhedskopiering og gendannelse af data (for mere end 2/3 af organisationer)
Planlægning af foranstaltninger, der skal træffes i tilfælde af krise (64%)
Datakonservering og arkivering (57%)

Dernæst i faldende rækkefølge af citater er replikerings-, spejling- og backup-løsninger på flere websteder eller på et andet fjernt websted (49%), failover på et backup-netværk (47%), analyse af procedurer og strategier. Sikring af forretningskontinuitet (47% ), båndbreddestyring (45%), fysisk og logisk sikkerhed (42%) osv.

Backup af data

Databevarelse kræver regelmæssige sikkerhedskopier. Det er vigtigt ikke at opbevare disse sikkerhedskopier ved siden af computerudstyr eller endda i samme rum, da de forsvinder sammen med de data, der skal sikkerhedskopieres i tilfælde af brand, vandskade, tyveri osv. Når sikkerhedskopierne sandsynligvis forsvinder med hardwaren, kan det være nødvendigt at opbevare sikkerhedskopierne et andet sted og fjerntliggende.

Konsekvensanalysen har leveret krav udtrykt i maksimal tidsgenopretning efter en katastrofe (RTO: Recovery Time Objective eller maksimal tilladt afbrydelsestid ) og maksimalt datatab ( RPO Recovery Point Objective eller Data Loss maximum allowable ). Strategien skal sikre, at disse krav overholdes.

Nødsystemer

Det er et spørgsmål om at have et computersystem svarende til det, man vil begrænse utilgængeligheden for: computere, periferiudstyr, operativsystemer, bestemte programmer osv. En af løsningerne er at oprette og vedligeholde et backup-sted , der indeholder et system i funktionsdygtig stand, der kan overtage fra det mislykkede system. Afhængigt af, om back-up system vil blive placeret på driftsstedet eller på et geografisk andet sted, vil vi tale om in situ redning eller fjern redning .

For at reagere på katastrofegendannelsesproblemer bruges flyttede steder oftere og oftere, det vil sige fysisk adskilt fra brugerne, fra et par hundrede meter til flere hundrede kilometer: jo mere fjernt stedet, jo mindre risikerer det at blive ramt af en katastrofe påvirker produktionsstedet. Men løsningen er desto dyrere, fordi båndbredden, der gør det muligt at overføre data fra et sted til et andet, generelt er dyrere og kan være mindre effektiv. Generaliseringen af langdistance-netværk og faldet i transmissionsomkostninger gør imidlertid begrebet distance mindre restriktivt: omkostningerne ved stedet eller operatørernes kompetence (deres evne til hurtigt at starte redningen og give adgang til brugerne) er af stor betydning. andre valg af argumenter.

Redningssteder ( in situ eller remote) er klassificeret efter følgende typer:

renrum (et maskinrum beskyttet af specielle adgangsprocedurer, generelt elektrisk sikkerhedskopieret). I forlængelse her taler vi om et mørkt rum til et rent rum, der er fjernstyret uden nogen operatør indeni.
hot site : backup-site, hvor alle servere og andre systemer er på, opdateret, sammenkoblet, konfigureret, leveret med data gemt og klar til drift. Webstedet skal også tilvejebringe al infrastruktur, der til enhver tid kan rumme alt personale og give mulighed for genoptagelse af aktivitet på relativt kort tid (et par timer). Et sådant sted svarer næsten til en fordobling af virksomhedens it-kapacitet (vi taler om redundans ) og har derfor en betydelig budgetmæssig vægt.
koldt sted : backup-sted, der kan have en anden anvendelse i normale tider (f.eks. gymnastiksal). Servere og andre systemer er gemt, men ikke installeret, forbundet osv. I tilfælde af en katastrofe skal der gøres et væsentligt arbejde med at idriftsætte stedet, hvilket fører til lange restitutionstider (et par dage). Men driftsomkostningerne uden for aktiveringsperioden er lave eller endda nul.
lunket sted : mellemliggende nødhjælpssted. Generelt er der installerede maskiner (opdatering forskudt fra produktionsstedet) med dataene på båndet, men ikke importeret til datasystemerne.

Det er også muligt at bruge systemer fordelt på flere steder (reduktion i risikoen for fiasko på grund af ekspansionseffekten ) eller et mobilt backup-site, der svarer til en lastbil, der bærer servere og andre systemer, hvilket gør det muligt kun at have brug for '' et sikkerhedskopieringssystem til flere websteder, der regner med at sandsynligheden for, at en fejl påvirker flere steder samtidigt.

Jo kortere de garanterede restitutionstider er, desto dyrere er strategien. Vi skal derfor vælge den strategi, der giver den bedste balance mellem omkostninger og hurtig inddrivelse.

På den anden side anvendes redundans også til problemer med høj tilgængelighed , men på en mere lokal måde.

Dobbelt strømforsyning til serverbåse
Kør redundans ved hjælp af RAID- teknologi
Redundans af servere med load balancing (distribution af anmodninger) eller hjerterytmesystemer (en server spørger regelmæssigt på netværket, om dens modstykke er i drift, og når den anden server ikke reagerer, overtager standby-serveren).

Det er også muligt at bruge et sekundært sted med høj tilgængelighed, som generelt er placeret i nærheden af produktionsstedet (mindre end 10 kilometer) for at forbinde dem med optisk fiber og synkronisere dataene fra de to steder i næsten realtid. Synkron eller asynkront afhængigt om de anvendte teknologier, tekniske behov og begrænsninger.

God information og god rollefordeling

Uanset hvor automatiseret og sikkert et it-system er, forbliver den menneskelige komponent en vigtig faktor. For at begrænse risikoen for fiasko skal aktørerne i en IS (IT-afdeling) anvende den mindst risikable adfærd for systemet og muligvis vide, hvordan de udfører tekniske handlinger.

For brugere er det
- at respektere standarderne for brug af deres computere: Brug kun de applikationer, der henvises til af IS-vedligeholdere, overbelast ikke netværkerne med unødvendige kommunikationer (massiv downloads, unødvendig dataudveksling, hold forbindelsen uden behov), respekter fortroligheden af adgangskoder;
- vide, hvordan man genkender fejlsymptomer (skelner f.eks. adgangsblokering fra en unormalt lang responstid) og ved, hvordan man rapporterer dem så hurtigt som muligt.
For IS-operatører er det et spørgsmål om at have den bedste viden om systemet med hensyn til arkitektur ( kortlægning af IS) og drift (i realtid, hvis det er muligt), at foretage regelmæssige sikkerhedskopier og at sikre, at de er anvendelige .
For de ansvarlige er det et spørgsmål om at træffe valget mellem interne præstationer og eksterne tjenester for fuldt ud at dække det område af handlinger, der skal udføres i tilfælde af sammenbrud (for eksempel er der ingen mening i at have tilbage- op maskiner, hvis vi ikke sørger for opdatering af deres operativsystem), til at indgå kontrakter med tjenesteudbydere, til at organisere forbindelser mellem IS-operatører og brugere, til at beslutte og gennemføre nødøvelser, herunder feedback.

Kurative foranstaltninger

Afhængig af katastrofens sværhedsgrad og kritikken af det mislykkede system vil genopretningsforanstaltningerne være forskellige.

Dataoverførsel

I dette tilfælde gik kun data tabt. Brug af sikkerhedskopier er nødvendig, og metoden er for enkelheds skyld at flytte det sidste sæt sikkerhedskopier. Dette kan gøres på kort tid (et par timer), hvis vi tydeligt har identificeret de data, der skal tages tilbage, og hvis metoderne og værktøjerne til genimplantation er tilgængelige og kendte.

Genstart af applikationer

Ved en større fejltærskel er en eller flere applikationer ikke tilgængelige. Brug af et backup-websted er muligt, det er tid til at stille den pågældende applikation til rådighed.

Genstart af maskiner

foreløbig: brug af sikkerhedskopieringssteder
endelig: Efter fejlfinding af den sædvanlige betjeningsmaskine skal du skifte brugerne tilbage til den og sørge for ikke at miste data og om muligt ikke afbryde brugerne.

Planlæg udvikling

Gendannelsesplanen indeholder følgende oplysninger:

Sammensætningen og rollen af “management management teams”. Disse hold er placeret på det strategiske niveau:

de officerer, der har myndighed til at afholde udgifter
den talsmand, der er ansvarlig for kontakter med tredjeparter: pressen, kunder og leverandører osv. ;
på det taktiske niveau de ansvarlige, der koordinerer handlinger;
på det operationelle niveau, feltholdene, der arbejder på katastrofepladsen og på udskiftningsstedet.

Sammensætningen af disse hold skal være kendt og opdateret såvel som udskiftningsfolk og midlerne til at forhindre dem. Teammedlemmer skal modtage træning.

De procedurer, der implementerer strategien. Dette inkluderer øjeblikkelige interventionsprocedurer (hvem skal underrette? Hvem kan starte planen og på hvilke kriterier? Hvor skal holdene mødes? Etc.);
Procedurer til gendannelse af vigtige tjenester, herunder eksterne leverandørers rolle
Procedurerne skal være tilgængelige for medlemmerne af pilotholdene, selv hvis bygningerne ikke er tilgængelige.

Øvelser og vedligeholdelse

Planen skal prøves regelmæssigt under træning. En øvelse kan være en simpel gennemgang af procedurer, muligvis et rollespil mellem styreteamene. En øvelse kan også udføres i fuld skala, men kan være begrænset til gendannelse af en ressource (for eksempel hovedserveren) eller til en enkelt funktion af planen (for eksempel proceduren for øjeblikkelig intervention). Målet med øvelsen er flere:

Kontroller, at procedurerne sikrer forretningskontinuitet
Kontroller, at planen er komplet og opnåelig
Oprethold et tilstrækkeligt niveau af kompetence blandt ledelsesteamene
Evaluer ledelsesteamets stressmodstand

En plan bør også gennemgås og opdateres regelmæssigt (mindst en gang om året) for at tage hensyn til skiftende teknologi og forretningsmål. Den eneste effektive måde at opdatere BCP på er at outsource vedligeholdelse til forretningsområderne, så den opdateres ved hvert månedlige servicemøde.

Plan for forretningskontinuitet eller it-backup?

Den forretningskontinuitetsplan, der er beskrevet i denne artikel, er egentlig bare it-delen af en omfattende forretningskontinuitetsplan. Det svarer derfor til en plan for sikkerhedskopiering af computere. En forretningskontinuitetsplan (eller "Business Continuity Plan") er ikke begrænset til informationssystemets kontinuitet, den tager også højde for tilbagetrækning af brugere, sundhedsrisikoen (epidemi, pandemi), den organisation, der muliggør krisestyring (on- vagttjeneste, kriseenheder osv.), krisekommunikation, bypass-foranstaltninger for virksomheder, tværfunktionelle funktioner ( HR , logistik osv.).

Hvis vi tager eksemplet med en bank, hvis it er hostet på et fjernt websted, og som ser dets handelsværelse ødelagt af en brand, vil den udløse sin forretningskontinuitetsplan ved at trække sine teams tilbage til et backup-sted. Dette backup-site består af arbejdspositioner (udtrykket "position" repræsenterer et skrivebord, en eller to skærme, en central enhed, en telefon), hvorpå brugere kan fortsætte deres aktivitet: deres telefonnummer overføres til deres backup position, vil billedet af deres computerstation være blevet rekonstrueret, de vil have de nødvendige kommunikationslinjer (internt og eksternt netværk), brugerbackupsiden er selv linket til computerhostingstedet (eller til hjælp, hvis sidstnævnte også er berørt af hændelsen). For at genstart af computeren skal kunne udnyttes af brugerne af systemet, skal de tekniske aspekter krydses med den menneskelige organisation.

Referencer

“ Professionel praksis | DRI ” , på drii.org (adgang 20. marts 2018 )
Practice Repository: Value Added Hosting - Response to Business Continuity Challenges 2008

Se også

Relaterede artikler

Bibliografi

Katastrofe og ledelse - Beredskabsplaner og kontinuitet i informationssystemer , af Daniel Guinier, Ed. Masson, 1995.
Beredskabsplan og informationssystem: mod den elastiske selskab , Matthieu Bennasar, Dunod, 2006 og 2 nd edition 2010 (AFISI 2006 præmie, bedste IS ledelsen bog).
Kontinuitetsstyringssystem - PRA / PCA: en juridisk forpligtelse for nogle og bydende nødvendigt for alle , Daniel Guinier, Revue-ekspertise, nr. 308,November 2006, s. 390-396.
Professionel praksis for ledelse af forretningskontinuitet , Disaster Recovery Institute International, 2017

eksterne links

(en) Business Continuity Club (CCA)