Den høje tilgængelighed eller høje tilgængelighed ( HA ) er et udtryk, der ofte bruges i computeren , om systemarkitektur eller service for at betegne det faktum, at denne arkitektur eller tjeneste har en tilgængelighedsgrad, der er passende.
Tilgængelighed er et vigtigt spørgsmål for IT-infrastrukturer i dag. En undersøgelse fra 2007 estimerer, at manglende tilgængelighed af IT-tjenester kan koste 440.000 euro i timen, og disse omkostninger beløber sig til milliarder af euro landsdækkende. Utilgængeligheden af IT-tjenester er særlig kritisk i industrien, især i tilfælde af stop på produktionslinjen.
To komplementære midler bruges til at forbedre tilgængeligheden:
Tilgængelighed måles ofte i procent:
Tilgængelighed i% | Utilgængelighed pr. År | Utilgængelighed pr. Måned | Utilgængelighed pr. Uge |
---|---|---|---|
90% ("en ny") | 36,5 dage | 72 timer | 16,8 timer |
95% | 18,25 dage | 36 timer | 8,4 timer |
98% | 7.30 dage | 14,4 timer | 3,36 timer |
99% ("to ni") | 3,65 dage | 7,20 timer | 1,68 timer |
99,5% | 1,83 dage | 3,60 timer | 50,4 minutter |
99,8% | 17,52 timer | 86,23 minutter | 20,16 minutter |
99,9% ("tre ni") | 8,76 timer | 43,2 minutter | 10,1 minutter |
99,95% | 4,38 timer | 21,56 minutter | 5,04 minutter |
99,99% ("fire ni") | 52,56 minutter | 4,32 minutter | 1,01 minutter |
99,999% ("fem ni") | 5,26 minutter | 25,9 sekunder | 6,05 sekunder |
99,9999% ("seks ni") | 31,5 sekunder | 2,59 sekunder | 0,605 sekunder |
Høj tilgængelighed og katastrofegenopretningsplan forveksles ofte fejlagtigt . Dette er to forskellige supplerende opgaver for at opnå kontinuerlig tilgængelighed .
Mange teknikker bruges til at forbedre tilgængeligheden:
Høj tilgængelighed kræver oftest et passende rum: stabiliseret strømforsyning, klimaanlæg på gulvet med partikelfilter, vedligeholdelsesservice, sikkerhedstjeneste og sikkerhed mod ondsindet hensigt og tyveri. Vær også opmærksom på risikoen for brand og vandskader. Strøm- og kommunikationskablerne skal være flere og nedgravede. De skal ikke stikke ud i bygningens underjordiske parkeringsplads, som alt for ofte ses i parisiske bygninger. Disse kriterier er de første, der skal tages i betragtning, når du vælger en boligudbyder (tilfælde af leje af et værelse med høj tilgængelighed).
For hvert arkitekturniveau er det nødvendigt for hver komponent, hver forbindelse mellem komponenter, at etablere:
For et program, der bruger andre applikationer med middleware i synkron tilstand ( webservice i http , Tuxedo , Corba , EJB ), vil tilgængelighedsgraden for applikationen være stærkt knyttet til tilgængeligheden af de applikationer, som det afhænger af. Følsomheden af de applikationer, som man afhænger af, skal derfor være ækvivalent eller større end selve applikationens følsomhed.
Ellers overveje
Af denne grund vil vi favorisere brugen af asynkron middleware for at favorisere god tilgængelighed, når det er muligt.
Følsomhed styres ofte af overflødige elementer med en belastningsbalanceringsmekanisme. (en Websphere-klynge med Alteon-belastningsbalancering for eksempel). For at dette system skal give en reel gevinst med hensyn til pålidelighed, skal det verificeres, at hvis et af elementerne er defekt, har de resterende elementer tilstrækkelig strøm til at sikre tjenesten.
Med andre ord, i tilfælde af to aktive servere med belastningsafbalancering, skal kraften fra en enkelt server være i stand til at sikre belastningen i alt. Med tre servere skal kraften fra en enkelt server levere 50% af belastningen (forudsat at sandsynligheden for at have en fejl på to servere på samme tid er ubetydelig).
For at sikre god tilgængelighed er det unødvendigt at placere et stort antal servere, der hjælper hinanden. For eksempel giver et 99% tilgængeligt element, der er overflødigt en gang, 99,99% tilgængelighed (sandsynlighed for, at begge elementer fejler på samme tid = 1 / 100x1 / 100 = 1/10000).
Redundansen af et element udføres generelt ved at vælge at være overflødig med flere identiske komponenter. Dette forudsætter, for at være effektivt, at en fejl i en af komponenterne er tilfældig og uafhængig af en fejl i en af de andre komponenter. Dette er for eksempel tilfældet med hardwarefejl.
Dette er ikke tilfældet for alle fejl: F.eks. Kan der opstå en fejl i operativsystemet eller en anomali i en softwarekomponent, når forholdene er gunstige, på alle komponenterne på samme tid. Af denne grund, når applikationen er ekstremt følsom, vil vi overveje overflødige elementer med komponenter af forskellig natur, men som giver de samme funktioner. Dette kan føre til:
I denne tilstand behandler forskellige komponenter de samme indgange og producerer derfor (i princippet) de samme udgange.
Resultaterne produceret af alle komponenterne indsamles, og derefter implementeres en algoritme for at producere det endelige resultat. Algoritmen kan være enkel (flertalsafstemning) eller kompleks (gennemsnit, vægtet gennemsnit , median osv.), Målet er at eliminere de fejlagtige resultater, der kan tilskrives en funktionsfejl på en af komponenterne og / eller at gøre en komponent mere pålidelig. resultat ved at kombinere flere lidt forskellige resultater.
Denne proces:
Denne proces anvendes generelt i de følgende tilfælde
Når en overflødig komponent ikke fungerer, og efter at have repareret den, kan du muligvis genindføre den i aktiv service, kontrollere, at den faktisk fungerer korrekt, men uden at resultaterne bliver brugt. I dette tilfælde behandles inputene af en (eller flere) betragtes som pålidelige komponenter. Disse producerer det resultat, der udnyttes af resten af systemet. De samme poster behandles også af den genindførte komponent, som siges at være i "skygge" -tilstand. Komponentens korrekte funktion kan verificeres ved at sammenligne de producerede resultater med pålidelige komponenter. Denne proces bruges ofte i afstemningsbaserede systemer, fordi det er tilstrækkeligt at udelukke komponenten i "skygge" -tilstand fra den endelige afstemning.
Vi kan skelne mellem to roller i disse processer.
Baseret på den forudsætning, at forebyggelse er bedre end helbredelse , forbedrer tilgængeligheden kontrolprocesser, der reducerer antallet af hændelser i systemet. To processer gør det muligt at spille denne rolle:
Ved at implementere disse to processer kan mange hændelser undgås.
Nedbrud sker altid. På dette tidspunkt er gendannelsesprocessen i tilfælde af en fejl afgørende for at sikre, at tjenesten gendannes så hurtigt som muligt. Denne proces skal have et mål: at gøre det muligt for brugeren at bruge en tjeneste så hurtigt som muligt. Den endelige reparation bør derfor undgås, fordi det tager meget længere tid. Denne proces bør derfor skabe en løsning på problemet.
En klynge med høj tilgængelighed (i modsætning til en computerklynge) er en klynge af computere, hvis mål er at levere en service, mens man undgår nedetid så meget som muligt.
Her er en ikke-udtømmende liste over klyngeapplikationer til UNIX (kører på AIX , HP-UX , Linux eller Solaris):
Der er certificeringsorganer, såsom Uptime Institute (undertiden kaldet "The Global Data Center Authority" ), der har defineret klassifikationer inden for datacentre og skelner mellem fire typer "tredjeparter" samt kriterier for modstandsdygtighed .