Den scanningen er omdannelse af oplysninger af en støtte (tekst, billede, lyd, video) eller et elektrisk signal i data digitalt som enheder computer eller digital elektronik kan behandles. Numeriske data defineres som en række tegn og tal, der repræsenterer information. Vi bruger undertiden det franske udtryk digitalisering ( cifret betyder figur på engelsk ).
Den skanning i forbindelse med arkiverne administrationen, er massen konvertering af edb-filer dokumenter.
Digitalisering konstruerer en diskret repræsentation af et objekt i form af en samling af et endeligt antal tegn taget fra et tælleligt sæt gyldige tegn.
digitalisering af tekster:Digitaliseringen af en tekst er dens transformation til en sekvens af tegn taget fra en liste over tegn, der findes i det skrevne sprog, da en diktat omdanner lyden af tale til en række af ord, der findes i ordbogen for det skrevne sprog.
scanning af billeder:Digitaliseringen af et billede omdanner det til en række instruktioner, der gør det muligt at rekonstruere det. Disse instruktioner kan bestå af en række visuelle fornemmelser for hvert element ( pixel ) eller have en mere kompleks organisation ( komprimeret billede , vektorgrafik ).
Medmindre digitale data produceres direkte af mennesker (dette kaldes dataindtastning ), involverer digitalisering typisk mindst tre faser:
Disse tre faser følger ofte mere komplekse operationer, der muliggør mere effektiv kodning. Dette er især tilfældet for digitalisering af billeder i digitale kameraer og digitalisering af tekster ( Djvu- format , optisk tegngenkendelse ).
Nogle gange kan digitaliseringsprocessen tage andre former.
scanning af temperaturen ved hjælp af en datalogger ( datalogger ):Den temperatur varierer langsomt over tid . Digitalisering skaber en journal over dens udvikling:
Hver gang temperaturafrundingen ændres, registreres den nye temperatur og dato og klokkeslæt.
Dataloggeren udfører automatisk disse operationer ved først at konvertere de to dimensioner, temperatur og tid, til elektriske signaler . Det registrerer resultatet i en kode, som andre computerenheder kan udnytte.
I de fleste tilfælde anvendes der dog regelmæssige trin, og en af de størrelser, der beskriver objektet , måles ved at inkrementere de andre. Vi opnår således et endeligt antal data.
Handlingen med at tage en værdi for hver forøgelse af en mængde kaldes sampling . I rumlig prøvetagning diskretiserer man i en længde , for eksempel ved at tage en lysstyrkeværdi hver tiendedel af en millimeter på hver rumlige akse . I tidsmæssig sampling vil vi diskretisere tidsforløbet, for eksempel ved at tage en værdi ved hver mikrosekund.
Funktionen med at afrunde en værdi til en anden, taget fra en endelig liste, kaldes kvantisering .
Resultatet af denne digitalisering er en række værdier, der repræsenterer størrelsen målt langs de valgte akser i en konventionel rækkefølge, der gør det muligt at rekonstituere alle dimensionerne for hvert element i objektet.
For at de digitaliserede data trofast repræsenterer de oprindelige størrelser, skal man altid antage antagelser om det signal, der skal repræsenteres.
Når kun dets båndbredde og signal-støj-forhold er kendt , bestemmer informationsteorien den digitale gennemstrømning . Den samplingsætningen foreslår en minimal samplingfrekvens med en kvantisering , således at kvantiseringsstøjen er på et niveau svarende til baggrundsstøjen. Støjen kan gøres uafhængigt af signalet ved dekorrelation ( dithering ) . Flere kombinationer af frekvens og kvantiseringsskala kan tilstrækkeligt beskrive det samme signal.
Med en mere præcis viden om de mængder, der skal repræsenteres, kan man bruge færre prøver takket være de komprimerede erhvervelsesmetoder .
Selve digitaliseringsprincippet indebærer, at brugeren (generelt en maskine) kender de konventioner, der gør det muligt at rekonstruere det repræsenterede objekt. Disse konventioner kaldes dataformatet . Digitaliseringen af information inkluderer uadskilleligt
Objektet kan kun rekonstrueres, hvis computermaskinen har begge komponenter i hukommelsen. Når algoritmen, der svarer til en fil eller en datastrøm, mangler fra maskinen, kan vi ikke bruge dataene, og vi taler om et kompatibilitetsproblem .
Formaterne kan være meget enkle, som i tilfældet med en rå strøm af digitalisering af et endimensionelt signal, hvor prøverne følger hinanden uden afbrydelse, og hvor det er tilstrækkeligt at kende deres størrelse, deres numeriske kodning og hastighed. at rekonstruere signalet, eller mere komplekst, som i tilfældet med vektorbeskrivelsesformater for dokumenter.
Data kompression teknikker gør det muligt at reducere størrelsen af filerne eller hastigheden af vandløbene. I dette tilfælde vokser den uforanderlige del af informationen (formatet) og bliver mere kompleks. Når dokumentet repræsenteret af disse filer eller streams er beregnet til at blive distribueret, søges et format således, at afkodningen, der udføres på hver station, er mindre kompleks end kodningen, som kun udføres en gang.
Digitaliseringsprocesserne varierer afhængigt af den fysiske karakter af de oplysninger, der skal digitaliseres:
Sådan digitaliseres en mængde, der varierer over tid, såsom en lyd :
For at digitalisere et billede diskretiseres højden og bredden, og lysniveauerne konverteres for hvert punkt, enten globalt eller for hver primærfarve. Rumprøvetagning udføres på tre forskellige måder:
Disse procedurer gælder for sort og hvid reproduktion. Til farvegengivelse kræves værdier for hver af de tre primære farver. Enten opdeler vi billedets lysstråle i tre dele svarende til de tre primære farver, eller vi indsætter filtre foran hver sensor ved at skifte farverne, og vi fortsætter med interpolering efter den digitale konvertering for at evaluere farven ved hver pixel. Generelt kompenserer andre processer derefter for manglerne ved det rå billede.
Digitaliseringen af et billede, der varierer over tid, kombinerer de to familier af processer. At scanne et bevægeligt billede ( video ), et digitalt kamera , et digitalt videokamera , et webcam , prøve tid og digitalisere et billede hver gang (for eksempel med et billede hver 40 millisekunder). Datastrømmen gennemgår derefter en hastighedsreduktionsproces.
Det er også muligt at digitalisere et analogt videosignal, enten ved at producere en rå konvertering af dette elektriske signal eller ved at rekonstruere hele eller en del af tidsdiskretiseringsinformationen fra de lodrette synkroniseringssignaler (rammer) og rummet fra vandrette synkroniseringssignaler ( linjer).
For at digitalisere en tekst indtaster enten en menneskelig operatør teksten , eller dokumentet digitaliseres som et billede ved at anvende på dette første sæt data et optisk tegngenkendelsesprogram muligvis suppleret med automatiske eller manuelle kontroller.
Computersystemer tillader:
Transmission af digitale data behandlet for at opnå maksimal belægning af det tilgængelige spektrum kræver mindre båndbredde på transmissionskanalerne end deres analoge modstykke.
Til gengæld går information forsømt eller tabt på digitaliseringstidspunktet eller under beregninger eller omkodning for de efterfølgende brugere.
Specialiserede komponenter sikrer konvertering til et digitalt system af det analoge signal, der oprindeligt blev produceret af transducere ( lysfølsom celle , termometer , mikrofon , radiomodtager osv.).
En A / D-konverteringskæde ( analog til digital ) kan opdeles i funktioner og kredsløb i elementer:
Nøjagtigheden af digitaliseringen afhænger af kvaliteten af kvantiseringen af signalet og urets stabilitet.
En multiplexer (MuX) kan transformere til en sekvens af diskrete signaler, analoge eller digitale, de uafhængige signaler, der ankommer parallelt (flere indgange, men kun en udgang).
Som en følge af de mange digitaliseringsprojekter er arkiveringen af elektronisk indhold baseret på et sæt handlinger, værktøjer og metoder implementeret til at indsamle, identificere, vælge, klassificere og gemme elektronisk indhold på et sikkert medium, med det formål at bruge dem og gøre dem tilgængelige over tid. Arkivering skal skelnes fra lagring og backup .
Målene for projekter, der kombinerer digitalisering og arkivering, er mange. Inden for elektronisk dokumenthåndtering og informations- og biblioteksvidenskab udfører de flere funktioner:
Digitalisering er et aspekt af det, der undertiden forkert kaldes dematerialisering . Det er utvivlsomt et af de væsentlige trin i ethvert projekt, der sigter mod at optimere styringen af indgående dokumenter og post, som stadig modtages bredt i papirformat af virksomheder og administrationer.
Eksplosionen i mængden af elektroniske data har uundgåeligt skubbet organisationer til at overveje elektronisk indhold gennem hele dets livscyklus, indtil det arkiveres eller endda ødelægges.
Franske virksomheder og administrationer skal også integrere forestillingen om prøvetid i deres arkiveringsprojekter for at kunne bevise integriteten over tid af bestemt elektronisk indhold og ægtheden af dets oprindelse (i overensstemmelse med de pålagte krav). Ved en juridisk ramme eller ved regler, der f.eks. vedrører bestemte brancher eller aktivitetssektorer). De elektroniske dokumenter, der er prioriteret ved arkivering til prøvetid, er således fakturaer, kunder eller leverandører, lønsedler eller elektronisk korrespondance.
Talrige operationer for at digitalisere forskellige elementer i kulturarven blev lanceret fra 2000'erne over hele verden. Blandt disse er der flere meget store projekter.
"Alliance for åbent indhold" (OCA)OCA-konsortiet er en amerikansk sammenslutning, der samler private virksomheder som Yahoo! , Adobe , HP , Internet Archive , biblioteker (BU California, BU Toronto), arkiver og udgivere. Det25. oktober 2005, Microsoft har tilmeldt sig denne gruppe.
Målet med OCA er at digitalisere og sætte en database tilgængelig for alle, flerårig og flersproget (database bestående af multimediedokumenter). Det tager dog kun højde for ophavsretlige kulturarvsmidler i modsætning til Google Book Search . Der foretages ingen digitalisering uden tilladelse fra rettighedshaverne . Sidstnævnte kan bidrage til projektet ved at definere omfanget af formidlingen med mulige begrænsninger.
Google bogsøgningAnnonceret den 14. december 2004af medstifterne af virksomheden Google er " Google Print " -programmet ansvarlig for digitalisering af 15 millioner bøger, som repræsenterer 4,5 milliarder sider på 6 år ifølge Jean-Noël Jeanneney , dengang præsident for Nationalbiblioteket i Frankrig . Fem biblioteker har aftalt at digitalisere deres midler: Bibliotekerne fra Harvard University , University of Michigan og Stanford University , New York Public Library og Bodleian Library of Oxford University . Google Print blev officielt lanceret i november 2005 med en samling af digitaliserede bøger i det offentlige område og fra projektpartnerne. Det blev omdøbt i midten af november til "Google Books Search" ("Google Book Search" på fransk). Nye aftaler er blevet indgået mellem Google og andre universiteter for at berige dette digitale bibliotek.
Det Europæiske Digitale BibliotekDet 22. januar 2005, præsident for Frankrigs Nationalbibliotek , Jean-Noël Jeanneney , lancerer i det daglige Le Monde en appel om at reagere på Googles initiativ. I slutningen af april 2005 opfordrede de nationale biblioteker i 19 lande og derefter seks europæiske stats- og regeringschefer til europæisk samarbejde om oprettelse af et europæisk digitalt bibliotek ( Europeana ). Et år senere åbner Det Europæiske Bibliotek , den flersprogede portal for BNE.
I 2016 giver Europeana adgang til 53 millioner digitaliserede dokumenter fra 3.300 europæiske institutioner. Det følgende år viser en undersøgelse bestilt af Europa-Kommissionen , at Europeana høres 700.000 gange om måneden.