Kontrolsum

Et kontrolsum ( kontrolsum på engelsk) er en kort sekvens af digitale data beregnet ud fra en større datablok (f.eks. En fil eller besked) for at verificere med meget stor sandsynlighed, at integriteten af ​​denne blok er bevaret under en kopi, lagring eller transmission. Det kaldes også undertiden et digitalt fingeraftryk . For slutbrugeren præsenteres kontrolsummer typisk som tal i hexadecimalt format . Brug af et kontrolsum er en form for redundanskontrol .

brug

Koder, der bruger kontrolsummer, bruges til at validere en besked. Hvis antallet af ændringer under transmission er lille nok, registreres de. Brug af en enkelt kontrolsum tillader detektion, men ikke korrektion af fejl.

Et kontrolsum er en enkel måde at sikre dataintegritet ved at opdage fejl, når data transmitteres i tide (på et datamedium) eller i rummet (telekommunikation). Princippet er at tilføje dataelementerne, der er afhængige af sidstnævnte - vi taler om redundans - og enkle at beregne. Denne redundans ledsager dataene under transmission eller ellers under lagring på ethvert medium. Senere er det muligt at udføre den samme handling på dataene og sammenligne resultatet med den oprindelige kontrolsum og dermed konkludere på den potentielle beskadigelse af meddelelsen.

Et specielt tilfælde, der er udbredt i branchen, er paritetsbiten. Det er et kontrolsum, hvis alfabetet har to bogstaver nul og en .

Bemærk: Udtrykket kontrolsum bruges også generisk til at beskrive redundans i lineære korrektionskoder . Denne brug af ordet er beskrevet i afsnittet Systematisk kode i artiklen Genererende matrix . Denne betydning af ordet betragtes undertiden forkert.

Intuitiv tilgang

Motivering

Korrektionskoderne har deres kilde i et meget konkret problem forbundet med transmission af data. I nogle tilfælde finder datatransmission sted ved hjælp af en kommunikationskanal, som ikke er helt pålidelig. Med andre ord er dataene, når de cirkulerer på denne kanal, modtagelige for at blive ødelagt. Formålet med kontrolsummer er at give informationsredundans, så fejlen kan opdages.

I tilfælde af en enkelt kontrolsum og i modsætning til andre korrektionskoder, såsom cykliske koder , er målet ikke automatisk fejlkorrektion, men detektion. Korrektionen udføres derefter ved en ny anmodning fra modtageren. Hvis cykliske koder er mere effektive, vokser deres algoritmiske kompleksitet såvel som deres størrelse.

En simpel kontrolsum tilføjer blot bogstaverne i meddelelsen. Det kan ikke registrere bestemte typer fejl. Især er en sådan kontrolsum uændret af:

Flere kontrolsummer er derefter nødvendige, og multiplikationen efterlader undertiden domænet for binære felter for andre mere komplekse endelige feltstrukturer . Udtrykket kontrolsum bruges stadig, selv om udtrykket cyklisk redundanskontrol er mere passende.

Denne type kode hører til familien af lineære koder . Det blev formaliseret efter Anden Verdenskrig . Claude Shannon (1916, 2001) formaliserer informationsteori som en gren af ​​matematik. Richard Hamming (1915, 1998) arbejder specifikt med spørgsmålet om kodepålidelighed for Bell Laboratories . Det udvikler grundlaget for teorien om korrigerende koder og formaliserer begrebet kontrolsum i dets generelle.

Eksempel: paritetsbit

7-bit data Paritetskonvention
par = 0 ulige = 0
0000000 0 0000000 1 0000000
1010001 1 1010001 0 1010001
1101001 0 1101001 1 1101001
1111111 1 1111111 0 1111111

Antag at målet er transmission af syv bits plus paritetsbit. I tilfælde af en seriel transmission af typen RS-232 transmitteres den mindst signifikante bit først (lsb) til den mest signifikante bit (msb) og derefter paritetsbiten.

Paritetsbiten kan defineres som lig med nul, hvis summen af ​​de andre bits er jævn og ellers til en . Vi taler om jævn paritet, dvs. den anden kolonne i tabellen kaldet lige = 0 . Meddelelser, der sendes på otte bits altid have nul paritet , så hvis der opstår en fejl, en nul bliver en én , eller omvendt; modtageren ved, at der er sket en ændring. Faktisk bliver summen af ​​bitene ulige, hvilket ikke er muligt uden en transmissionsfejl.

En anden konvention kan tages, paritetsbitten defineres derefter som lig med en, hvis summen af ​​de andre bits er jævn og ellers nul . Resultatet er den tredje kolonne, der er mærket ulige = 0 .

Paritetsbiten er fed med den anden og tredje kolonne.

Vi må ikke forveksle paritet af et tal og det faktum, at det er lige eller ulige (i den matematiske betydning af udtrykket). Det binære tal 00000011 (3 i decimaltal) er ulige (ikke deleligt med 2) men med lige paritet (lige antal bits ved 1). Funktionen, der forbinder hver vektor med dens paritetsbit kaldes paritetsfunktionen .

Denne tilgang gør det muligt at detektere antallet af ulige fejl i det tilfælde, hvor bogstaverne enten er nul eller en . Kontrolsummen generaliserer konceptet for mere fejlregistrering og for andre alfabeter.

Eksempler på anvendelse

ASCII

En berømt anvendelse er den, der blev foretaget i begyndelsen af ​​brugen af ASCII-koden  : 7 bits blev brugt; med computere, der i øjeblikket bruger 8 bit, var der stadig en tilgængelig. Denne sidste bit blev derfor ofte brugt til et kontrolsum: dens værdi var summen, binær eller ækvivalent den "eksklusive eller" af de første 7 bit. Enhver ændring af et ulige antal bits kan derefter detekteres.

For nylig bruges en sådan sum til byte nummer 11 og 12 i headeren på IP- pakker . Disse to bytes beregnes som følger. Bytes er nummereret fra 1 til 10.

De 16 bits, der udgøres af byte-tallene i og i + 1, for i = 1,3,5,7 og 9, betragtes som den binære skrivning af et heltal. De således opnåede 5 heltal tilføjes. Vi får derefter et heltal, der kan kræve mere end 16 bits. Sidstnævnte skæres derefter i to, de 16 mindst signifikante bits og de andre, vi beregner summen af ​​disse to halvdele, og vi gentager denne proces, så længe vi ikke opnår et heltal, der kun bruger 16 bits. Endelig ændres hver bit af dette sidste heltal. Målet bag denne beregning er enklere, end det ser ud. Når vi gentager operationen inklusive kontrolsummen, det vil sige når vi kontrollerer gyldigheden af ​​overskriften, får vi 16 bits til værdien 1.

Unix kommandolinje

Under Unix er der et kommandolinjeprogram cksum, der angiver et kontrolsum baseret på en 32- bit cyklisk redundanskontrol samt størrelsen (i byte ) og navnet på filen (e), der er angivet i Indgang.

MD5 sum

En udvikling af dette værktøj er md5sum, som gør det muligt at beregne (derfor verificere) MD5- fodaftryk for en fil. Dette værktøj er meget populært, især til verificering af integriteten af ​​downloadede filer og for at sikre, at de er komplette og ikke er beskadiget. De disk images til Linux-distributioner er også verificeres på den måde.

Meddelelse

For eksternt at sende en række tegn bruges generelt en UART ( Universal Asynchronous Synchronous Receiver Transmitter ), der blandt andet konverterer parallel / seriel ved transmission og seriel / parallel ved modtagelse. Mange UART-modeller gør det muligt automatisk at beregne og tilføje paritetsbiten til bitene i tegnene; i modtagelse styrer det paritetstegnet og sætter et flag ( flag ) i tilfælde af fejl.

Hukommelseskort

Computere bruger dynamiske minder ( DRAM ) som deres arbejdshukommelse. I mange år håndterede DRAM-kasser en-bit ord; det var derfor nødvendigt at placere 8 kasser på hukommelseskortet for at arbejde med bytes (8 bit). Imidlertid havde mange kort ikke 8, men 9 kasser! Den niende kasse var beregnet til at gemme en paritetsbit under hver lagring af en byte. Når vi læste en byte, kontrollerede vi, om pariteten mellem skrivningstidspunktet og læsning ikke var blevet ændret (f.eks. Efter en parasit).

Formalisering

Lineær kode

Målet er transmission af en meddelelse m , det vil sige en række længde k af bogstaver valgt fra et alfabet. Meddelelsen vises som et element i et sæt S k . Formålet er at transmittere en kode c således, at modtageren er i stand til at detektere eksistensen af ​​ændringer, hvis antallet af fejl ikke overstiger et heltal t . En kode er dataene for et kort φ af S k i et sæt E for at m associerede Ø ( m ) = c . Applikationen φ er en indsprøjtning , fordi ellers ville to forskellige meddelelser have den samme kode, og modtageren ikke kunne skelne dem.

Paritetsbiten kommer fra familien af ​​lineære koder. Denne metode består i at give sæt S k og E en algebraisk struktur tilpasset til at drage fordel af gode egenskaber. Alfabetet K vælges med en endelig feltstruktur . Generelt er det lig med {0,1} feltet med to elementer. S k og E er K- vektorrum . Kortet φ er lineært . Sættet af meddelelser, der modtages uden fejl, er lig med φ ( S k ), et vektorunderrum af E kaldet kode .

Hamming vægt

Transmissionen er underlagt ændringer, og derfor modtager modtageren ikke altid koden c = φ ( m ) men undertiden φ ( m ) + e hvor e er konsekvensen af ​​den dårlige transmission. Efter antagelse indeholder e mindre end t ikke-nul koordinater. Antallet af ikke-nul-koordinater for en vektor af E kaldes Hamming-vægten, og antallet af koordinater, der adskiller sig mellem c og c + e, er Hamming-afstanden . Det er en afstand i udtrykkets matematiske betydning.

Hvis alle punkterne i koden φ ( S k ) er i en afstand, der er strengt større end t fra hinanden, så er c + e ikke et element i koden, modtageren ved derfor, at meddelelsen er fejlagtig, og den er i stand til at anmode om en ny transmission.

Figuren til højre illustrerer denne situation. k er lig med to, feltet K er lig med {0,1} og t er lig med 1. S k = {00, 01, 10, 11} er et todimensionelt vektorrum. E er vektorrummet K 3 , illustreret i figuren. Applikationen φ associeres med en meddelelse m , koordinatvektoren for m og summen i K af de to koordinater af m . I feltet K er ligestillingen 1 + 1 = 0 verificeret. Så vi har:

Koden, dvs. φ ( S k ) er repræsenteret af de grønne prikker i figuren. Punkterne i en afstand på 1 fra et grønt punkt er dem, der opnås ved en forskydning på et enkelt segment af terningen. De er alle sorte, dvs. de er ikke en del af koden og er derfor nødvendigvis forkert. Hvis der kun opstår en korruption, ved modtageren, at transmissionen var dårlig.

En lineær kode er beskrevet af tre parametre, betegnet [ k , n , d ]. Den første værdi k er længden af ​​koden , det vil sige antallet af bogstaver i en meddelelse, n er dimensionen af ​​koden , der svarer til dimensionen af ​​vektorrummet E og d er den mindste afstand mellem to ord af koden. En kode kaldes perfekt hvis den eksisterer et helt tal t , såsom bolde centrum af et element kode og radius t danne en skillevæg af E .

Ejendomme

Teorien om begrænsede felter gør det muligt at demonstrere to væsentlige egenskaber ved brugen af ​​en enkelt kontrolsum i en kode.

Sætning  -  Lad K være et endeligt felt og k et strengt positivt heltal. Der er en kode på kroppen K for parameteren [ k , k + 1, 2] bestående af identiteten og et kontrolsum.

Demonstration

Lad os overveje generatormatrixkoden (se afsnittet Definitioner i artiklen Lineær kode ), dvs. hvis matrix G på k rækker og k + 1 kolonner i de kanoniske baser er som følger:

Matrixen er godt konstrueret ved hjælp af identitetsmatrixen og kontrolsummen. Ved konstruktion er de første to parametre i koden faktisk k og k + 1. Endomorfismen φ er faktisk injektiv, fordi dens matrix indeholder en identitetsundermatrix af dimension k .

Det er kun tilbage at vise, at hvis m og m ' er to forskellige meddelelser, så er Hamming-afstanden mellem φ ( m ) og φ ( m') meget større end eller lig med to. Dette svarer til at vise, at hvis a er meddelelsen lig m - m ', så har φ ( a ) en Hamming-vægt større end eller lig med to. Vi bemærker, at der er elementer i koden φ ( S k ), hvis vægt er lig med to, for eksempel billedet af ethvert element i basen af S k . Det er derfor tilstrækkeligt at vise, at enhver vektor, der har en unik ikke-nul-koordinat, ikke er et element i koden. Det vil sige, ingen vektor på basis af E er et element i φ ( S k ).

Eller ( f j ) hvor j er et helt tal mellem 1 og k + 1 den kanoniske basis af E . Hvis f k + 1 er et element i koden, så da f j - f k + 1 er et element i koden, hvis j er mindre end eller lig med k , er f j også et element i koden. Koden indeholder derfor k + 1 vektor baseret E . Koden er dog af dimension k , og konklusionen er, at f k + 1 ikke er et element i koden. Hvis f j er et element i koden med j mindre end eller lig med k , er f k + 1 også et element i koden, fordi f j - f k + 1 er, men det er umuligt ifølge den tidligere analyse. Minimumafstanden er derfor faktisk lig med to .

Denne type kode er den mest kompakte stand til at detektere en fejl på vægten én . Faktisk ville en mindre kode have en dimension lig med k og derfor ingen redundans. det er MDS, fordi det når Singleton terminalen . Det vil sige, dens dimension minus dens længde er lig med dens mindste afstand minus en. På den anden side er koden ikke perfekt , det vil sige at kuglerne i centrerer kodens ord og radius en ikke danner en partition af E , et punkt uden for koden er generelt i en afstand af en af flere punkter i koden, tilhører den derfor flere bolde.

Sætning  -  Lad K være et endeligt felt og k et strengt positivt heltal. Enhver kode på parameterlegemet K [ k + 1, k , 2] er isomorf til en kode sammensat af identiteten og et kontrolsum.

Demonstration

De samme notationer som tidligere er brugt, især φ er det lineære kort over S k i E for koden. Note ( f j ) til j varierer fra 1 til k + 1 den kanoniske basis af F . Målet er at finde en base ( e i ), hvor i er et heltal mellem 1 og k af E, således at matrixen for φ er lig med G i disse baser.

Bemærk først og fremmest, at ingen vektor af det kanoniske grundlag for F er et element i koden, faktisk har koden en minimumsafstand, der er lig med to , og enhver vektor af grundlaget er i en afstand af en fra ordet null kode.

På den anden side er der en koefficient c i sådan, at f i + c i . f k + 1 hvis i er mellem 1 og k er et element i koden. Vektorrummet genereres af vektorerne f i og f k + 1 er af dimension to , skæringspunktet med den kode, som er en hyperplan, ikke reduceres til vektoren nul. Helst vektor af krydset har en ikke-nul koordinere på f i fordi f k + 1 er ikke en del af krydset. Selvom det betyder at anvende en homøthitet på vektoren, kan koordinaten på f i vælges lig med en .

Lad e i være fortilfælde til kodeordet f i + c i . f k + 1 . Det er så tilstrækkeligt at bevise, at ( e i ) er et grundlag for E og at bemærke, at matricen af ​​indeed faktisk er den for G i baserne ( e i ) og ( f j ) for at konkludere.

Overvej et lineært afhængighedsforhold for familien ( e i ):

Ved at anvende φ på det lineære afhængighedsforhold opnår vi:

Det lineære afhængighedsforhold anvendes på et grundlag, så koefficienterne er nul. Familien ( e i ) er fri for en kardinalitet svarende til dimensionen af E , det er derfor et grundlag for E , som slutter beviset.

Med andre ord, hvis en MDS-kode har en minimumafstand på to , konstrueres den ved hjælp af identitet og et kontrolsum. Kontrolsummen er derfor den eneste optimale måde at opdage en ændring på.

Flere kontrolsummer

Sammenslutningen af ​​flere kontrolsummer gør det muligt at få en kode, der automatisk kan korrigere ændringer. Denne logik bruges f.eks. Til Hamming binære parameterkode [7,4,3]. Tre kontrolsummer gør det systematisk muligt at rette en ændring.

En vigtig familie af korrektionskoder , cykliske koder bruger kontrolsummer i forbindelse med automatisk korrektion. Mens nogle enkle tilfælde, såsom Hamming-koder, bruger enkle paritetsbits, bruger andre som Reed-Solomon-koder mere komplekse multiplikationstabeller som følge af endelige feltudvidelser . Logikken er den samme, men kontrolsummen svarer ikke længere til et sæt paritetsbits.

Kontrolsum og kryptografi

Et kontrolsum er nyttigt til at opdage utilsigtede ændringer af data, men er ikke beregnet til at beskytte mod forsætlige ændringer . Mere præcist kan det generelt ikke direkte sikre den kryptografiske integritet af dataene. For at undgå sådanne ændringer er det muligt at bruge en passende hash-funktion , såsom SHA-256 , kombineret med et hemmeligt element (hemmelig nøgle), der svarer til princippet om HMAC .

Noter og referencer

  1. "  checksum  " , Le Grand Dictionnaire terminologique , Office québécois de la langue française (adgang 21. august 2020 ) .
  2. “  digitalt fodaftryk  ” , Le Grand Dictionnaire terminologique , Office québécois de la langue française (adgang 21. august 2020 ) .
  3. Claude Shannon En matematisk teori om kommunikation Bell System Technical Journal , bind. 27, s.  379-423 og 623-656, juli og oktober 1948
  4. Richard Hamming Fejldetektering og fejlkorrektionskoder Bell Syst. Teknisk. J. 29 s.  147 til 160 1950

Se også

Bibliografi

Relaterede artikler

eksterne links

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">