Høj tilgængelighed

Den høje tilgængelighed eller høje tilgængelighed ( HA ) er et udtryk, der ofte bruges i computeren , om systemarkitektur eller service for at betegne det faktum, at denne arkitektur eller tjeneste har en tilgængelighedsgrad, der er passende.

Tilgængelighed er et vigtigt spørgsmål for IT-infrastrukturer i dag. En undersøgelse fra 2007 estimerer, at manglende tilgængelighed af IT-tjenester kan koste 440.000 euro i timen, og disse omkostninger beløber sig til milliarder af euro landsdækkende. Utilgængeligheden af ​​IT-tjenester er særlig kritisk i industrien, især i tilfælde af stop på produktionslinjen.

To komplementære midler bruges til at forbedre tilgængeligheden:

Måling af tilgængelighedsgrad

Tilgængelighed måles ofte i procent:

Tilgængelighed i% Utilgængelighed pr. År Utilgængelighed pr. Måned Utilgængelighed pr. Uge
90% ("en ny") 36,5 dage 72 timer 16,8 timer
95% 18,25 dage 36 timer 8,4 timer
98% 7.30 dage 14,4 timer 3,36 timer
99% ("to ni") 3,65 dage 7,20 timer 1,68 timer
99,5% 1,83 dage 3,60 timer 50,4 minutter
99,8% 17,52 timer 86,23 minutter 20,16 minutter
99,9% ("tre ni") 8,76 timer 43,2 minutter 10,1 minutter
99,95% 4,38 timer 21,56 minutter 5,04 minutter
99,99% ("fire ni") 52,56 minutter 4,32 minutter 1,01 minutter
99,999% ("fem ni") 5,26 minutter 25,9 sekunder 6,05 sekunder
99,9999% ("seks ni") 31,5 sekunder 2,59 sekunder 0,605 sekunder

Høj tilgængelighed og katastrofegenopretningsplan forveksles ofte fejlagtigt . Dette er to forskellige supplerende opgaver for at opnå kontinuerlig tilgængelighed .

Teknikker til at forbedre tilgængeligheden

Mange teknikker bruges til at forbedre tilgængeligheden:

Høj tilgængelighed kræver oftest et passende rum: stabiliseret strømforsyning, klimaanlæg på gulvet med partikelfilter, vedligeholdelsesservice, sikkerhedstjeneste og sikkerhed mod ondsindet hensigt og tyveri. Vær også opmærksom på risikoen for brand og vandskader. Strøm- og kommunikationskablerne skal være flere og nedgravede. De skal ikke stikke ud i bygningens underjordiske parkeringsplads, som alt for ofte ses i parisiske bygninger. Disse kriterier er de første, der skal tages i betragtning, når du vælger en boligudbyder (tilfælde af leje af et værelse med høj tilgængelighed).

For hvert arkitekturniveau er det nødvendigt for hver komponent, hver forbindelse mellem komponenter, at etablere:

Afhængighed af andre applikationer

For et program, der bruger andre applikationer med middleware i synkron tilstand ( webservice i http , Tuxedo , Corba , EJB ), vil tilgængelighedsgraden for applikationen være stærkt knyttet til tilgængeligheden af ​​de applikationer, som det afhænger af. Følsomheden af ​​de applikationer, som man afhænger af, skal derfor være ækvivalent eller større end selve applikationens følsomhed.

Ellers overveje

Af denne grund vil vi favorisere brugen af ​​asynkron middleware for at favorisere god tilgængelighed, når det er muligt.

Belastningsfordeling og følsomhed

Følsomhed styres ofte af overflødige elementer med en belastningsbalanceringsmekanisme. (en Websphere-klynge med Alteon-belastningsbalancering for eksempel). For at dette system skal give en reel gevinst med hensyn til pålidelighed, skal det verificeres, at hvis et af elementerne er defekt, har de resterende elementer tilstrækkelig strøm til at sikre tjenesten.

Med andre ord, i tilfælde af to aktive servere med belastningsafbalancering, skal kraften fra en enkelt server være i stand til at sikre belastningen i alt. Med tre servere skal kraften fra en enkelt server levere 50% af belastningen (forudsat at sandsynligheden for at have en fejl på to servere på samme tid er ubetydelig).

For at sikre god tilgængelighed er det unødvendigt at placere et stort antal servere, der hjælper hinanden. For eksempel giver et 99% tilgængeligt element, der er overflødigt en gang, 99,99% tilgængelighed (sandsynlighed for, at begge elementer fejler på samme tid = 1 / 100x1 / 100 = 1/10000).

Differentiel redundans

Redundansen af ​​et element udføres generelt ved at vælge at være overflødig med flere identiske komponenter. Dette forudsætter, for at være effektivt, at en fejl i en af ​​komponenterne er tilfældig og uafhængig af en fejl i en af ​​de andre komponenter. Dette er for eksempel tilfældet med hardwarefejl.

Dette er ikke tilfældet for alle fejl: F.eks. Kan der opstå en fejl i operativsystemet eller en anomali i en softwarekomponent, når forholdene er gunstige, på alle komponenterne på samme tid. Af denne grund, når applikationen er ekstremt følsom, vil vi overveje overflødige elementer med komponenter af forskellig natur, men som giver de samme funktioner. Dette kan føre til:

Redundans med stemmesystem

I denne tilstand behandler forskellige komponenter de samme indgange og producerer derfor (i princippet) de samme udgange.

Resultaterne produceret af alle komponenterne indsamles, og derefter implementeres en algoritme for at producere det endelige resultat. Algoritmen kan være enkel (flertalsafstemning) eller kompleks (gennemsnit, vægtet gennemsnit , median osv.), Målet er at eliminere de fejlagtige resultater, der kan tilskrives en funktionsfejl på en af ​​komponenterne og / eller at gøre en komponent mere pålidelig. resultat ved at kombinere flere lidt forskellige resultater.

Denne proces:

Denne proces anvendes generelt i de følgende tilfælde

"Skyggeoperationer"

Når en overflødig komponent ikke fungerer, og efter at have repareret den, kan du muligvis genindføre den i aktiv service, kontrollere, at den faktisk fungerer korrekt, men uden at resultaterne bliver brugt. I dette tilfælde behandles inputene af en (eller flere) betragtes som pålidelige komponenter. Disse producerer det resultat, der udnyttes af resten af ​​systemet. De samme poster behandles også af den genindførte komponent, som siges at være i "skygge" -tilstand. Komponentens korrekte funktion kan verificeres ved at sammenligne de producerede resultater med pålidelige komponenter. Denne proces bruges ofte i afstemningsbaserede systemer, fordi det er tilstrækkeligt at udelukke komponenten i "skygge" -tilstand fra den endelige afstemning.

Processer, der hjælper med at forbedre oppetiden

Vi kan skelne mellem to roller i disse processer.

Processer, der reducerer antallet af afbrydelser

Baseret på den forudsætning, at forebyggelse er bedre end helbredelse , forbedrer tilgængeligheden kontrolprocesser, der reducerer antallet af hændelser i systemet. To processer gør det muligt at spille denne rolle:

Ved at implementere disse to processer kan mange hændelser undgås.

Processer, der reducerer varigheden af ​​afbrydelser

Nedbrud sker altid. På dette tidspunkt er gendannelsesprocessen i tilfælde af en fejl afgørende for at sikre, at tjenesten gendannes så hurtigt som muligt. Denne proces skal have et mål: at gøre det muligt for brugeren at bruge en tjeneste så hurtigt som muligt. Den endelige reparation bør derfor undgås, fordi det tager meget længere tid. Denne proces bør derfor skabe en løsning på problemet.

Klynge med høj tilgængelighed

En klynge med høj tilgængelighed (i modsætning til en computerklynge) er en klynge af computere, hvis mål er at levere en service, mens man undgår nedetid så meget som muligt.

Her er en ikke-udtømmende liste over klyngeapplikationer til UNIX (kører på AIX , HP-UX , Linux eller Solaris):

Certificering

Der er certificeringsorganer, såsom Uptime Institute (undertiden kaldet "The Global Data Center Authority" ), der har defineret klassifikationer inden for datacentre og skelner mellem fire typer "tredjeparter" samt kriterier for modstandsdygtighed .

Se også

Relaterede artikler

eksterne links

Noter og referencer

  1. "  silicon.fr  " (adgang 9. december 2010 )
  2. "  Journaldunet  " (adgang 9. december 2010 )
  3. Der bruges en periode på 30 dage til denne beregning.
  4. (da) Alteon WebSystems
  5. http://www.uptimeinstitute.com/professional-services/professional-services-tier-certification "Arkiveret kopi" (version af 23. juli 2018 på internetarkivet )