Den anonymisering af data ( så meget desto mere personlig ) består i at modificere indholdet eller strukturen af disse data med henblik på at gøre meget vanskeligt eller umuligt at ”re-identifikation” af de personer (fysiske eller juridiske), eller af de pågældende enheder (hvilket indebærer at klart definere, hvad begrebet identificerbarhed betyder i denne sammenhæng ). Engelsktalende taler også undertiden om De-Identification (DE-ID) .
Valget om at anonymisere data skyldes ofte et etisk , juridisk og etisk kompromis mellem et ønske eller en forpligtelse til at beskytte enkeltpersoner og deres personlige data. Anonymiseringen bruges især til formidling og deling af data, der anses for at være af offentlig interesse , såsom åbne data ( Open Data ).
Brugen af anonyme data rejser stadig juridiske og etiske problemer, fordi det også kan være en "barriere" eller en barriere for medicinsk forskning , "observational" . Ligeledes er mange undtagelser fra denne regel (f.eks. For visse medicinske data vedrørende forsvar eller intern sikkerhed) indarbejdet i loven i demokratiske lande. Denne brug ledsages undertiden af en grænse for holdbarheden.
Mens begrebet fortrolighed af personoplysninger - især medicinske data - går tilbage til Hippokrates , har den store computerlagring og -behandling af personoplysninger for nylig vendt dette spørgsmål på hovedet.
De Forenede Stater og Den Europæiske Unions medlemsstater har gradvist vedtaget national eller overnational lovgivning om beskyttelse af datahemmeligheden, herunder edb-data (i Europa siden direktiv 95/46 / EF om beskyttelse af personoplysninger ), som krævede, at medlemsstaterne harmonisere deres lovgivning på dette område før24. oktober 1998, herunder f.eks. vedrørende overførsel af data til lande uden for Den Europæiske Union (vigtigt spørgsmål, da behandling eller anvendelse af visse data af omkostningsårsager kan outsources og delokaliseres uden for Europa).
Det europæiske direktiv vedrører kun ikke-anonymiserede data og bestemmer, at brugen af "anonyme data" ikke falder inden for dets kompetence: ifølge direktivets betragtning 26 gælder "principperne for databeskyttelse ikke for data anonymiseret på en sådan måde at den registrerede ikke længere kan identificeres ” . dette er blevet bekræftet og afklaret ved retspraksis i England og Wales (appeldomstolens dom). De første tekster (nationale eller europæiske) var ikke særlig præcise, hvordan man anonymiserede nominative eller personlige data.
For visse data kræver anonymisering stadig samtykke fra de berørte personer, og generelt bør det forhold, at man forbeholder sig muligheden for at de-anonymisere dataene inden en bestemt periode (ved hjælp af en eller flere dekrypteringsnøgler generelt) også kræve forudgående samtykke fra de berørte personer.
Vi forsøger nu at forbedre sikkerheden ved dataoverførsler uden at bremse overførselsstrømmene eller hæmme de legitime behov for finkornet datacirkulation (hvilket f.eks. Kan være afgørende for fjernmedicin ).
Spørgsmålene er samtidig etiske , juridiske , informative og god regeringsførelse . Derudover er der opstået nye problemer som følge af Internets udseende, som har øget adgangen til information, der gør det muligt for folk at tilbyde andre - undertiden hensynsløs eller samtidig med at de er dårligt informeret om risiciene - elementer i hans privatliv (via blogs og fora eller personlige sider for eksempel), hvilket gør " retten til at blive glemt " vanskeligere . Siden 1990'erne er der i det mindste gjort en indsats for at informere patienterne om den mulige brug af deres medicinske data eller af visse mere eller mindre personlige data og om deres ret til privatliv . Disse bestræbelser skal styrkes af en samlet europæisk regulering, som Europa-Parlamentet anslår i 2013-2014, og ifølge vicepræsident Viviane Reding (EU-kommissær for retfærdighed) “Databeskyttelse sker i Europa. Stærke databeskyttelsesregler skal være kendetegnende for Europa. Efter skandaler af global dataspionage fra amerikanerne er databeskyttelse mere end nogensinde en faktor for konkurrenceevne ... ” .
I visse sammenhænge eller af personlige årsager ønsker en person muligvis at være anonym (eller være i stand til at bruge et pseudonym eller nægte at få sit navn nævnt, deres ansigt vist osv.). Anonymitet er obligatorisk, når loven pålægger at beskytte bestemte personoplysninger eller følsomme data ved at anonymisere dem, hvilket kan tillade en vis genbrug af data af offentlig og almindelig interesse ( fælles interesse ) uden at true personen.
Den midlertidige pseudo-anonymisering (faktisk maskering af dens forfatteres identitet) af en eksamenskopi gør det muligt for eksaminatoren at blive mindre påvirket af elevens navn, klasse eller nationalitet.
Afhængig af konteksten, anonymisering af en person i en debat, en rapport osv. giver dem mulighed for at undslippe eventuelle repressalier, stigma eller simpelthen uønsket adgang til deres privatliv , men det kan undertiden skade personens troværdighed eller kvaliteten (med hensyn til præcision) af informationen. Anonymiseringen af data, der indeholder personlige elementer, reducerer undertiden værdien af disse data set fra et statistisk synspunkt, deres relevans eller anvendelighed for forskning.
Anonymiseringen af de interviewpersoners filer, der er produceret under meningsmålingerne, er en operation, der kan få en sociologisk betydning. Sociolog Emmanuelle Zolesio foreslår sociologer, der analyserer anonymiserede data, ikke at overveje anonymisering på en måde, der er afbrudt fra resten af interviewanalysen. I tilfælde, hvor intervieweren "tilbyder feedback til sine respondenter ved at få dem til at læse resultaterne af sin forskning" , er der metoder til at anonymisere data i tilfælde, hvor respondenterne kender hinanden og kan genkende hinanden på trods af navneændringer. Foretaget af efterforskeren.
Særlige udfordringer vedrører bekæmpelse af målrettet spam , beskyttelse af sundhed og mere generelt biomedicinske data (inklusive genetisk kode ) med f.eks. Oprettelse af kræftregistre , sygdomsregistre, epidemiologisk kortlægning osv. På dette område har medicinsk eller øko-epidemiologisk forskning eller sundhedsorganisationer undertiden absolut behov for data for at identificere patienten (og den systematiske forpligtelse til at videregive samtykke til brug af personlige data af hver patient ville fremkalde en bias. Vigtig fortolkning af data og kan være en hindring for forskning). Brugerne af disse data er derefter underlagt specifikke krav. I nogle lande styrkes fortrolighedspligten yderligere for visse sygdomme (f.eks. Seksuelt overførte sygdomme ).
I forbindelse med formidling af visse offentlige data, der indeholder private oplysninger, og især i forbindelse med åbne data ( åbne data ), skal visse data "anonymiseres" til genbrug af tredjeparter i henhold til gældende love.
En permanent udfordring er at opdatere reglerne og bedste praksis og afklare mulige fortolkninger, mens computerens muligheder for at krydse data fra Internettet udvikler sig hurtigt. Dataansvarlige er også særlig berørt.
Erklæringerne om visse sygdomme (kendt som " rapporterbare sygdomme " eller MDO ) anonymiseres på en irreversibel måde ( AIDS / HIV for eksempel i Frankrig) for bedre at beskytte patienterne, samtidig med at det er muligt at forbedre sundhedsovervågning og -forebyggelse og epidemiologisk undersøgelser .
Med fremskridt og reduktion af omkostningerne ved genetisk analyse opstår der nye spørgsmål om bioetik : i hvilket omfang er anonyme data anonyme? undrede sig i 2012 Harald Schmidt Shawneequa Callier og andre. Derudover indeholder en persons genom også a priori personlige oplysninger om sine forfædre. Allerede i 2008 spillede aktører i genomicsektoren som Greenbaum et al. undrede sig i 2008 om genetisk anonymitet ikke allerede er gået tabt.
Deling og endda offentliggørelse i åbne data af anonymiserede genomiske data har vist sig at være af stor interesse for fremskridt inden for medicin i særdeleshed og videnskab generelt, men samtidig være en kilde til uligheder og nye risici i tilfælde af misbrug af visse data.
I 2008 strammede NIH sine sikkerhedsregler, efter at en artikel viste, at det er muligt pålideligt at detektere en persons DNA, selvom DNA'et repræsenterer mindre end 1% af det samlede DNA-analyserede volumen. Kort efter opfordrede en af de øverste NIH-embedsmænd via et brev til Journal Science det videnskabelige samfund til "nøje at overveje, hvordan disse data deles og tage passende forholdsregler" for at beskytte fortroligheden af medicinske data og privatlivets fred. deltagere i genetiske studier.
George Church, en af skaberne af Personal Genome Project (PGP), var allerede bekymret for, at DNA er "den ultimative numeriske identifikator for et individ, og at mange af deres træk kan identificeres på denne måde" og argumenterer således for at love DNA-prøve donorers fulde privatliv og fortrolighed ville være umuligt og uærligt. Desuden ville de- identifikation af sådanne prøver udarme både genotypiske og fænotypiske data, hvorfor dette program er blevet ifølge Misha Angrist (en af grundlæggerne af projektet) bedst kendt for sin særlig grundige (hidtil usete) tilgang til informeret samtykke: hver deltager skal bestå en test om deres viden om genomforskning og fortrolighedsproblemer og acceptere at give afkald på fortroligheden og fortroligheden af deres genomiske data og personlige helbredsoptegnelser. 100.000 deltagere bør kun blive berørt af dette program. Dette kan være en kilde til fortolkning af bias, fordi programmet kun valgte personer, der kan tåle usikkerhed (accepterer at give informeret samtykke). Størrelsen af denne bias kan endnu ikke måles, men de endelige resultater bliver nødt til at tage den i betragtning.
Rundt om i verden testes nye metoder til vurdering af problemerne og anonymisering af genetiske analyser .
Når de sædvanlige identifikatorer er fjernet fra en tekst, kan der forblive navne på byer, steder, bestemte udtryk, der identificerer forfatteren eller den person, vi taler om. Specialiseret software kan identificere disse elementer ved at sammenligne teksten med sproglige ressourcer såsom lister over steder eller byer, navne på hospitaler eller sundhedsinstitutioner, regulære udtryk osv. Meget af denne software er dog designet til engelsk og skal være "fransk" eller tilpasset andre sprog.
Anonymisering kan udføres "ved kilden" af den enhed, der producerer dataene, eller "ved output" efter behandling og analyse.
I et voksende antal lande udføres anonymisering af autoriserede virksomheder, "af udpeget personale, hvis ansættelseskontrakt kan tilbagekaldes i tilfælde af krænkelse af patientens fortrolighed . " I Europa specificeres i en konvention ( Europæisk konvention til beskyttelse af menneskerettigheder og grundlæggende frihedsrettigheder ), at privatliv inkluderer en persons, hans families, hans families privatliv og også hans korrespondance.
Et første, minimalt trin består i at fjerne identifikatorerne fra de pågældende poster eller databaser; disse identifikatorer er generelt:
Det næste trin vil være at anvende "filtre" og " kryptografiske transformationer " på filer eller databaser (f.eks. Kryptering og / eller hash af data ved hjælp af en dedikeret algoritme, f.eks. SHA til Secure Hash-algoritme ), men inden dette arbejde bærer datalederen udført eller har gennemført en undersøgelse, der præciserer dets behov for anonymisering, dens mål og kravene (f.eks. skal der være en mulig reversibilitet af anonymisering), om nødvendigt prioritere de data, der skal beskyttes i henhold til deres grad af "følsomhed" og afhængigt af formålet med behandlingen, som oplysningerne derefter skal gennemgå. Han kan således producere og sammenligne flere anonymiseringsscenarier for bedre at vælge den løsning, der synes mest relevant for ham (i henhold til hans krav og lovens krav). I alle tilfælde skal anonymisering modstå ordbogangreb .
Flere faser og niveauer af anonymisering følger nogle gange hinanden: F.eks. Udfører hospitalet en indledende anonymisering, databehandlingscentret kan derefter gennemføre dette arbejde, og sekundære brugere (forskere generelt) kan stadig overanonyme dataene. Omarbejdet (før offentliggørelse i en journal eller distribution til andre brugere). Der findes mange metoder (sletning af visse data og / eller manuel omkodning, matematisk oversættelse, automatisk transformation med ad hoc- software ); brug af pseudonymer, for eksempel til læge / patientpar; kryptering (normalt med en offentlig nøgle - muligvis fragmenteret - ejet af den kompetente myndighed) mono-anonymisering, bi-anonymisering eller multi-anonymisering.
På det medicinske område vedrører begrebet anonymiseret identitet og patientidentifikation det direkte og indirekte middel til genidentifikation (f.eks. Navn, adresse osv.), Men også krypterede data, hvis dekrypteringsmidlerne er tilgængelige.
For at begrænse risikoen for informationslækage vises en person (f.eks. En patient) kun i en anonym database, hvis dette er obligatorisk eller virkelig nyttigt, og et projekt kan kun tilknyttes en anonymiseret database. Der opnås øget retssikkerhed, hvis alle de personer, der optræder der, har givet deres samtykke (skriftligt eller ved at give deres identifikator til f.eks. En medicinsk-kommerciel undersøgelse), men denne type basis inducerer informationsforstyrrelse. Fortolkning.
Naturligvis på hvert niveau af produktion eller datalagring:
Sådanne data bruges mere og mere inden for mange områder (forskning, statistik, administrativ ledelse, markedsundersøgelser ...). Disse data hører f.eks. Til følgende kategorier:
Nogle gange er det nødvendigt at forbyde enhver mulighed for genidentifikation, hvilket indebærer en irreversibel proces med anonymisering, ved en metode, der har bevist sin robusthed over for slutninger (med slutning her mener vi den ulovlige rekonstruktion af fortrolige data, der ikke er direkte tilgængelige, af betyder søgning og matchning af flere legitimt tilgængelige data, der afslører visse oplysninger om en person. Den pågældende type af slutning kan være induktiv, deduktiv, bortførende eller sandsynlig;
Sofistikerede midler synes alligevel at være i stand til i nogle tilfælde i det mindste ikke at tillade en gentagelse identifikation bestemt, men for at fastslå sandsynligheder for, at en sådan person svarer til et bestemt datasæt Software, der permuterer bestemte værdier i datatabellerne (så de personlige data bliver falske, uden at den samlede statistik forfalskes) og / eller tilfældigt indfører støj kan gøre overlapningen har post riori meget sværere.
Anonymisering af tekster (fx: corpus af e-mails eller corpus af svar på et interviewspørgeskema ...) med betydelige omkostninger, genanvendelige anonymiserede corporaer er ret sjældne.
Nogle forfattere som Pete Warden mener, at det er blevet umuligt at virkelig anonymisere bestemte data, og at vi bliver nødt til at lære at arbejde med denne grænse. Faktisk har forskere vist, at en person kunne findes i en medicinsk database ved at kende deres køn, postnummer og fødselsdato, i en telefondatabase baseret på fire geolokaliseringspunkter eller endda i en kreditkortdatabase ved at kende fire butikker og dage, hvor han brugte sit kort.
Ifølge ham kan krav om, at data er helt anonymiserede også give en "falsk følelse af sikkerhed" .
Han anbefaler ikke at opgive anonymisering (fordi det bremser og gør genopbygningsprocessen dyr), men det er også nødvendigt at formidle dataene mere intelligent ved at begrænse deres præcisionsniveau, hvis det er muligt, og ved at lære af eksperter (sociologer, læger, økonomer) og andre har arbejdet med disse spørgsmål i flere årtier).
Forskerne Luc Rocher, Julien M. Hendrickx og Yves-Alexandre de Montjoye mener på deres side, at de anonymiseringsstandarder, der var gældende i 2019, er utilstrækkelige, især set fra synspunktet med Den Europæiske Unions generelle databeskyttelsesforordning ., fordi de tillader genidentifikation ved krydstjek med andre databaser. Ifølge deres model kunne 99,98% af de amerikanske beboere genidentificeres i ethvert datasæt fra femten demografiske variabler.
Anonymisering kan være organisatorisk, kryptografisk eller irreversibel (envejsfunktion). Anonymisering er pr. Definition irreversibel, hvis det er muligt at gå tilbage til den oprindelige person, kaldes dette pseudonymisering . Et af måderne til sikring af data, samtidig med at muligheden for efterfølgende genidentifikation bevares, er at bruge et chipkort, der tilfældigt kan generere og gemme flere sekundære anonyme identifikatorer.
Måling af ændringer i offentlighedens opfattelse af nuværende procedurer og fremtidige scenarier for sekundær og delt brug af personoplysninger, især i sundhedssektoren (og deres anvendelsesbetingelser), er vigtig for at ramme eller ændre de etiske og juridiske strukturer til overvågning brugen af disse data (tidligere CNIL i Frankrig).
I begyndelsen af 2000'erne stoler de fleste europæiske borgere generelt på sundhedsudbydere for at behandle deres data med respekt for fortrolighed: ifølge en Eurobarometer- undersøgelse sagde 84% af EU-borgere, at de gjorde tillid til lægeprofessionen for dette, men kun 42% af respondenterne vidste behovet for at give samtykke til nogen til at bruge deres personlige oplysninger samt deres ret til at modsætte sig visse anvendelser af disse data.
Forskellige meningsmålinger eller videnskabelige undersøgelser viser, at offentligheden siden begyndelsen af edb-data er i begyndelsen af 2000'erne klar til at acceptere edb-databehandling af lægejournaler, men forbliver generelt og med ringe forskel på geografisk, etnisk eller kønsoprindelse. , meget bekymret over beskyttelsen af privatlivets fred og personlige data. I 2014 siger "Ni ud af ti europæere (92%), at de er bekymrede over mobilapplikationer (App), der sandsynligvis vil indsamle deres data uden deres samtykke" og "Syv ud af ti europæere er bekymrede over den potentielle anvendelse, som virksomheder kan gøre de videregivne oplysninger ” .
Ifølge en nordamerikansk undersøgelse, der blev offentliggjort i 2013, ville offentligheden, der blev stillet spørgsmålstegn ved, mere end brugeren eller den mere eller mindre følsomme karakter af den delte information først og fremmest vide, hvad der specifikt vil blive gjort med disse personlige data.
En anden undersøgelse fra 2013 viser, at "kornet" ved anonymisering (grad af sløring på en måde) også er en bekymring for offentligheden.
Med hensyn til sundhed indrømmer offentligheden vigtigheden af adgangen til ikke-anonyme data til medicinsk personale, der er ansvarlig for den primære pleje, og til patienten selv, mens computeren af medicin udvikler sig hurtigt, men det er bekymret for god anonymisering af disse data, når de er skal bruges til sekundære formål. Ejerskabet af medicinske oplysninger er ikke altid klart.
En undersøgelse fra 2004 baseret på fokusgrupper, der involverede medicinsk personale og nogle få ikke-sundhedspersonale fra engelske sundhedsråd, viste, at man ikke på forhånd kunne antage, at den engelske offentlighed kunne acceptere brugen af indholdet af den medicinske fil uden patientens forudgående samtykke. Al understøttet forskning baseret på disse data, men samtidig med at man viser bekymring over risikoen for unødig formidling fra indsamling af data fra medicinske journaler uden patientens samtykke (indsamling opleves som en manglende respekt fremkaldt af patientens tab af kontrol over disse data) . I de grupper, der blev interviewet til denne undersøgelse, var adgang til personlige data fra uautoriserede eksterne organer et fælles problem. Og nøgleinformanterne viste sig at være mere kritiske over for scenarierne og mindre godt acceptere risikoen for drift.
Anonymisering skal derfor tages i betragtning opstrøms i planlægningen af pleje- og lægepolitikker og procedurerne for kliniske forsøg, især lægemidler og under opbygningen af databaser beregnet til medicinsk forskning.