Du kan forkorte det ved at opsummere indholdet i visse sektioner og flytte deres originale indhold til detaljerede artikler eller diskutere dem .
Inden for geostatistik er en regionaliseret variabel ( RV ) en hvilken som helst funktion, der er matematisk deterministisk for modellering af et fænomen, der har en struktur, der er mere eller mindre udtalt i rum og / eller tid: fysisk fænomen eller abstrakt (f.eks. Økonomisk).
Historisk set vedrørte de første anvendelser af ordforrådet og begrebet " regionaliseret variabel " næsten udelukkende fordelingen af mineraliserede kvaliteter i en minedepositum ; men dette værktøj fandt efterfølgende anvendelser inden for så forskellige områder som meteorologi og skovbrug , badymetri og topografi ( DEM ), miljø , præcisionslandbrug , fiskeri , epidemiologi , civilingeniør , enhver kvantitativ kortlægning generelt osv.
Under et andet ordforråd svarer en regionaliseret variabel strengt til den fysiske forestilling om felt og mere præcist af deterministisk felt .
Ud over introduktionen
I denne artikel og i overensstemmelse med det fransktalende geostatistiske samfunds ordforråd vil det generiske navn for regionalisering blive brugt til at betegne den rumlige (og / eller tidsmæssige) organisering af de undersøgte fænomener; i forlængelse, og når der ikke er nogen tvetydighed, betegner dette ord undertiden selve fænomenet. Vi kan så generelt forstå geostatistik som værende studiet af regionaliseringer, med andre ord behandlingen af regionaliserede variabler, "behandling", der mere præcist betyder her en række på fire faser:
Synspunktet " Undersøgelse af regionaliseringer " har fordelen ved ikke at privilegere hverken et anvendelsesfelt (i modsætning til " geo- ") eller en metode (i modsætning til " -statistik ") og svarer derfor bedre til virkeligheden af den nuværende geostatistik. I denne forstand, og skønt den er historisk acceptabel, synes definitionen af Le Petit Larousse at være enestående restriktiv: “ Estimering af indskud ved hjælp af statistiske metoder ”.
I skøn og vælg præsenterer Matheron geostatistik som praksis med “topo-probabilistiske modeller” : en neutral definition, som også har den fordel, at præsentere geostatistik som en disciplin i krydset mellem teori og praksis. Men denne formel, selvom den er strengt beskrivende, syntes måske at insistere for meget på den teoretiske komponent og forvirre praktiserende læger. Og desuden blev det i sidste ende ikke bevaret ved brug; tværtimod er brugerne vant til blot at udpege deres specialitet under det almindelige navn "geostat".
I sin nuværende implementering er geostatistik et spørgsmål om anvendt matematik : skønt den er baseret på rene matematiske teorier ( lineær algebra , Hilbert-rum , senere sandsynligheder og stokastiske processer ), er den primært orienteret mod konkrete applikationer., Så den konfronteres med den fysiske virkelighed : upræcise eller ufuldstændige data, mulige tekniske eller økonomiske begrænsninger, problemer der undertiden er dårligt stillede . Dette er grunden til, at Matheron stadig i Estimate and Choose ikke fra starten af betegner det som " et sæt modeller, metoder og" tricks ", ofte uortodoks ". Denne dualitet mellem teori og praksis mellem strenghed og pragmatisme er en konstant i den anvendte geostatistiske tilgang.
Endelig, selvom vi undertiden kan finde ordet "geostatistik" i litteraturen, er det historisk et entydigt ord: lad os f.eks. Citere de tre bind af traktaten om anvendt geostatistik af Georges Matheron (se bibliografi), begyndelsen på geostatistisk litteratur. På den anden side er det indviede ord på engelsk på samme tid og af samme forfatter faktisk " geostatistik " (jf. Georges Matheron, Principles of geostatistics , Economic Geology vol. 58, 1963).
I sidste ende ville det ikke være udelukket at behandle som VR - for eksempel - numeriske værdier tildelt punkter på et faktorplan : i dette tilfælde ville det undersøgte objekt ikke længere være et fænomen, men en ren og enkel artefakt. - dette der har desuden her ingen pejorativ konnotation a priori . Intet matematisk forbyder det; men spørgsmålet ville naturligvis være at vide, hvilken betydning der skal tilskrives en sådan tilgang, og bortset fra at udføre ren forskning er dette spørgsmål åbenlyst oprindeligt. Inden for anvendt geostatistik kræver denne type spekulative operationer, som ganske vist undertiden kan vise sig at være meget frugtbare, ekstrem metodologisk forsigtighed og en meget stor kritisk sans. I forlængelse, og når der ikke er nogen frygt for forvirring, kan dette udtryk henvise til selve fænomenet. I den første forstand er en VR derfor et matematisk objekt , følsomt som sådan for teoretiske manipulationer; i det andet er det et fænomen eller en fysisk begivenhed , både målelig og eksisterende uafhængigt af observatøren: denne dualitet antydes af de to modsatte billeder, der repræsenterer det samme område i henhold til de to synspunkter.
Implementeringen af VR er hovedsageligt berettiget til at tage højde for fænomener, der er både strukturerede og meget uregelmæssige: sådanne er f.eks. Ofte naturlige fænomener (mineralogiske, geofysiske, meteorologiske, miljømæssige osv.), Herunder adfærd 'sammen afslører en global organisation i rum og / eller tid, men hvis lokale variation forbyder enhver modellering ved enkle matematiske udtryk. På den anden side, selvom intet teoretisk forhindrer, at man systematisk anvender VR's formalisme, kan fuldstændig ustruktureret information mere fordelagtigt behandles med statistiske værktøjer ; og derimod kunne meget regelmæssige fænomener beskrives ved enkle funktioner eller evolutionsligninger .
Dette værktøj fandt efterfølgende applikationer inden for så forskellige områder som meteorologi og skovbrug , badymetri og topografi ( DEM ), miljø , præcisionslandbrug , fiskeri , epidemiologi , teknik, civil , enhver kvantitativ kortlægning generelt osv. Under et andet ordforråd er en regionaliseret variabel strengt svarende til den fysiske forestilling om felt og mere præcist af deterministisk felt
Desuden er en regionaliseret grundlæggende en kvantitativ variabel : den tildeler ethvert punkt i rummet en numerisk værdi i bred forstand ( dvs. muligvis vektor eller kompleks ). Således er en regionaliseret variabel også et felt i matematisk forstand : skalær eller vektor eller tensorfelt : som sådan vil det derfor sandsynligvis blive undersøgt ved hjælp af analyseværktøjerne , især differensberegningen og integralberegningen , såvel som ved statistiske værktøjer .
For at sige det enkelt ... ↑ ↓ | |
En regionaliseret variabel er en numerisk funktion, der på et givet geografisk domæne har til formål at repræsentere et bestemt fysisk fænomen. Geostatistikerens arbejde består i at forsøge at forbinde de funktionelle matematiske egenskaber med de strukturelle egenskaber ved dette fænomen for at besvare de konkrete problemer, der er forbundet med den (interpolation, estimering, numeriske simuleringer ...). |
Den komplette definition af en regionaliseret variabel, betragtet abstrakt som en funktion af et sæt i et andet, kræver i fuld strenghed at specificere strukturen for startsættet, strukturen for slutsættet og de analytiske egenskaber. Af funktionen. Men i virkeligheden vil en RV i de fleste tilfælde simpelthen være en funktion af et metrisk rum inden for et andet.
AfgangspladsFor så vidt som det første mål med den regionaliserede variabel er at tage højde for en rumlig struktur, skal arbejdsområdet - det vil sige startrummet for VR- funktionen - kunne være udstyret, i det mindste lokalt , til en afstandsfunktion . I de fleste tilfælde vil det matematiske objekt "startrum" således være en abstrakt repræsentation af den intuitive forestilling om geografisk rum . Generelt vil dette ikke give nogen særlig vanskelighed: det er således let at måle afstande i en aflejring, på forurenet land, i en skov eller at måle tidsintervaller i løbet af en bestemt proces. Man kan dog forestille sig mere komplekse situationer; så,
I praksis er startrummet dog ofte et euklidisk rum . Det er faktisk mere nøjagtigt at tale om en delmængde af et sådant rum: i praksis arbejder vi faktisk altid på et afgrænset domæne , hvis grænse fundamentalt afhænger af de tilgængelige data og det stillede problem. Under disse betingelser er det enkleste og mest almindelige at matematisk betragte dette arbejdsdomæne som en afgrænset delmængde af , hvor betegner dimensionen (rumlig og / eller tidsmæssig) af arbejdsområdet.
Mens arbejdsområdet og dimensionen af rummet pålægges af arten af det problem, der skal løses, er valget af afstand i princippet frit inden for de ofte brede grænser, som matematik pålægger. I næsten alle tilfælde foretrækker vi dog naturligvis den euklidiske afstand , hvis det er muligt , på den ene side, fordi det er denne, der tillader den enkleste teoretiske udvikling, og på den anden side fordi den svarer til den sædvanlige afstand målt i marken ved praktikere, i det mindste når kun rumlige koordinater skal bruges. På den anden side er det for studier af rumtemporal karakter ikke sikkert, at et rent matematisk svar er tilfredsstillende: Vi kan altid faktisk konstruere en afstand, der blander de rumlige og tidsmæssige koordinater, men det er tvivlsomt, at denne konstruktion teoretisk set andre steder korrekt har en konkret betydning.
AnkomstområdeObjekterne i ankomstområdet er de værdier, der tages af VR på ethvert tidspunkt i afgangsrummet.
Tilfælde af et skalært feltHvis vi arbejder på et skalarfelt, vil disse objekter være tal, det meste af tiden reelle, så slutrummet simpelthen bliver . I dette tilfælde af en skalær VR er situationen enkel at organisere: de værdier, der tages af VR er tal, der udtrykkes i enhederne af den undersøgte variabel. Det vil for eksempel være meter (eller fødder ...), hvis VR repræsenterer topografiske højder, meter (eller favne ...), hvis den repræsenterer badymetriske dybder, procenter (eller g / T ...), hvis den repræsenterer malmkvalitet, etc. Og da objektet med geostatistik i det væsentlige er at karakterisere de undersøgte objekters rumlige strukturer, er det nødvendigt at kunne give ankomstrummet et teoretisk værktøj, der gør det muligt at kvantificere ligheden (eller uligheden) mellem to værdier taget af VR på et hvilket som helst to punkter i arbejdsområdet.
Sådanne værktøjer findes inden for rammerne af sædvanlige statistikker; den enkleste er autokorrelationsfunktionen , som blandt andet gør det muligt at kvantificere den intuitive opfattelse af "indflydelseszone". Denne funktion har to punkter i det geografiske rum som argumenter og forbinder dem med et dimensionsløst tal mellem -1 og +1, der repræsenterer korrelationskoefficienten mellem værdierne for variablen, der betragtes på disse to punkter. Især når der ved to geografisk adskilte punkter svarer til en nulværdi af denne funktion, betyder det således, at der ikke er nogen gensidig statistisk sammenhæng mellem målingerne, der udføres på disse to punkter, eller endda at kendskabet til værdien taget af VR på et tidspunkt giver (statistisk) ingen yderligere oplysninger om den værdi, der er taget af VR på det andet punkt. Denne funktion er derfor af stor betydning først og fremmest for forståelse og modellering af den rumlige organisation af variablen af interesse og derefter for konstruktionen af en estimator og mere specielt for interpolering i kartografi ; og faktisk kan den bruges i geostatistik, for eksempel til simpel kriging .
Imidlertid kræver den teoretiske eksistens af autokorrelationsfunktionen stærke antagelser om stationaritet, som ikke altid er opfyldt; dette var grunden til, at geostatistik meget tidligt måtte ty til et andet værktøj. Oprindeligt er dette værktøj simpelthen den kvadratiske forskel mellem værdierne taget af den regionaliserede variabel på to punkter i det geografiske rum. Det er en funktion af to variabler, af den generelle form:
eller
Under disse forhold vises funktionen som et mål for kontrasten mellem de observerede værdier på to punkter. Det er et første værktøj til at kvantificere strukturen (rumlig og / eller tidsmæssig) af den regionaliserede variabel, en strukturel funktion, som derfor går ud over simpel rent statistisk information, da den ikke kun tager højde for de værdier, der tages af VR, men også også implantation af de observerede værdier.
Imidlertid betragtes som afhængig af to uafhængige variabler, og denne funktion kan ikke være et operationelt værktøj af mindst to grunde:
På denne måde er det vigtigt at introducere arbejdshypoteser, så meget som muligt eksperimentelt kontrollerbare, der gør det muligt at modellere den strukturelle funktion under overholdelse af to antagonistiske begrænsninger: at bedst tage højde for strukturen af VR og let udgøre et objekt matematisk manipulerbar. Denne tilgang (delvist nævnt nedenfor) udgør essensen af, hvad geostatistikere almindeligvis kalder variografi .
Tilfælde af et vektor- eller multivariabelt feltSagen, hvor ankomstsættet er flerdimensionalt, fremhæver et almindeligt problem inden for geostatistik. Matematisk ændrer dette faktisk næsten intet i skalaragen: VR forbliver en funktion i streng forstand; det er under ingen omstændigheder en multiform funktion , hvilket også betyder, at det på et hvilket som helst tidspunkt i det geografiske rum associerer en eneste værdi i ankomstrummet, selvom dette ville være en vektor, en tensor eller mere generelt en multiplet af skalære værdier. I alle tilfælde er VR-billedet af ethvert punkt i afgangsrummet et enkelt element (en singleton ) i ankomstområdet.
Et trivielt eksempel viser desuden, at den teoretiske grænse mellem den skalære sag og den multivariable sag undertiden er meget tynd. Hvis ankomstområdet er det komplekse plan, kan man lige så godt betragte VR som at tage skalære værdier på kompleksets felt eller som at tage dens værdier i et todimensionelt rum på feltet med de reelle tal . Under disse forhold, og stadig på det teoretiske niveau, er det meget let at definere en metrisk i ankomstrummet: denne gang vil vi definere som en strukturel funktion
hvor symbolet angiver modulet for det komplekse tal .
I forlængelse heraf, hvis ankomstområdet er et vektorrum, konkret hvis objekterne i ankomstområdet er multipletter af værdier, der udtrykkes i de samme enheder , kan vi naturligvis anvende modulets firkant som strukturel funktion. For eksempel, hvis VR har tre komponenter , og , vil vi indstille
hvor symbolet angiver vektorens modul .
På den anden side er den foregående formel ikke længere anvendelig, hvis de forskellige komponenter, der udgør VR-objektet, ikke udtrykkes i de samme enheder: summen af forskellen i kvadrater vil blande heterogene størrelser og derfor ikke længere have nogen fysisk betydning . Det er derfor nødvendigt at definere en ad hoc strukturel funktion , som generelt åbner døren for en uundgåelig vilkårlighed. Dette er en situation, der næsten uundgåeligt opstår, når man arbejder i en multivariabel ramme: der er i virkeligheden ingen nye teoretiske vanskeligheder, og den matematiske udvikling kunne forfølges uden tekniske hindringer; men behovet for at pålægge modellen at aflægge regnskab under gode virkelighedsbetingelser tværtimod giver ofte anledning til betydelige komplikationer på implementeringsniveauet, og under disse betingelser har oplevelsen og ansvarsfølelsen meget mere betydning end matematisk strenghed til at udføre en anvendt undersøgelse.
Da disse faktorer ikke kan medtages i materialet i en generel præsentationstekst, vil vi først kort diskutere specificiteterne i den multivariate sag senere, selv om dette i praksis vedrører langt størstedelen af undersøgelserne. Men vi må ikke glemme det faktum, at indsatsen for kritisk analyse og den konstante dialog med ”klienten” i praksis optager betydeligt mere af geostatistikeren tid end beherskelsen af de teoretiske værktøjer, der er nævnt i denne artikel, og at valget af en relevant måling på ankomstområdet udgør et af de første og vigtigste trin i dette kritiske arbejde.
Applikationens analytiske egenskaberBetragtes som en funktion (derfor et matematisk væsen), kan den regionaliserede variabel være et genstand for undersøgelse af alle analyseværktøjerne. Vi kan derfor undre os over dets asymptotiske opførsel , dens harmoniske analyse , de mulige PDE'er, som den opfylder, dens integrerbarhed osv. Naturligvis, undtagen i tilfælde af rent teoretisk forskning, skal dette arbejde være i stand til at være forbundet med fysiske fortolkninger, hvorfor modeller, der er for rige, løber en betydelig risiko for overfortolkning : vi er typisk i sammenhæng med anvendelsen af princippet om parlamentarik . Desuden, selvom modellen og de matematiske hypoteser bekræftes af feltobservationer, skal man huske på, at " korrelation ikke indebærer kausalitet ", med andre ord at strukturel modellering ikke hævder nogen forklarende værdi. og mere præcist, VR som matematisk objekt er begrænset til en beskrivelse af VR som et fysisk fænomen. Enhver søgning efter en fortolkning eller endda en forklaring er brugerens eget ansvar.
I denne henseende udgør VR 's differentieringsegenskaber et vigtigt eksempel, som det er nyttigt at detaljerede. For at undgå tekniske vanskeligheder (ved hjælp af delvise derivater eller retningsbestemte , stereologiske problemer (in) ), vil det være begrænset til det elementære tilfælde, hvor afgangsområderne og ankomsten identificeres med : VR er så simpelthen en reel funktion, en reel variabel.
En væsentlig illustration: begrebet "regelmæssighed"For en reel funktion defineret på (eller på en tidligere specificeret delmængde af ) er begrebet "regelmæssighed" perfekt defineret og er forbundet med graden af differentierbarhed af funktionen. Desuden kan denne grad af regelmæssighed, hvor det er relevant, kun verificeres stykkevis . Sættet af funktioner, der opfylder et givet regelmæssighedskriterium, har strukturen i et vektorrum , og de forskellige således bestemte vektorrum tilfredsstiller strenge inklusionsrelationer, som gør det muligt at definere et hierarki af regelmæssighedskarakterer strengt . Ved at begrænse sig selv for enkelhed til de funktioner, der er defineret i det store og hele,
og vi har følgende inklusioner:
hvilket afspejler en stigende regelmæssighed (i matematisk forstand).
For at sige det enkelt ... ↑ ↓ | |
Udøvelsen af anvendt geostatistik møder den reelle vanskelighed ved at lave præcise matematiske begreber falder sammen med empiriske forestillinger, der undertiden er ufuldstændigt formuleret. Dialektikken forstærkes mere, når de matematiske egenskaber er mere krævende; og det er mere skjult (og derfor farligere), når de berørte empiriske forestillinger virker godt mestret eller taget for givet. Rent teoretisk udvikling, der kun sigter mod matematisk nøjagtighed, risikerer at miste kontakten med virkeligheden og føre til ren formalisme, korrekt men ubrugelig. Udviklingen, der kun er baseret på pragmatisme, risikerer at undgå mulighederne for teoretisk streng kontrol. > Den anvendte geostatistikers mission er at opnå en balance, en acceptabel syntese mellem disse to tilgange, der hver for sig er sammenhængende, men ufuldstændige, og som nogle gange er vanskelige at forene. |
For den anvendte geostatistiker er det vigtigt at kunne fortolke disse egenskaber i fysiske termer. Situationen synes enkel, når det kommer til kontinuitet eller stykkevis kontinuitet: fraværet af diskontinuitet eller begrænsningen med kun at have et begrænset antal diskontinuiteter synes at være egenskaber, der effektivt kan observeres i marken, tilgængelige eksperimentelt. Og alligevel er vi allerede i nærværelse af en diskret form for ” epistemologisk brud ”. For i modsætning til den matematiske version er kontinuitet faktisk ikke klart defineret i henhold til sund fornuft . For at illustrere denne erklæring kan vi tænke på et meget simpelt eksempel på VR: topografi. At sige, at i et område er højden kontinuerlig, det vil betyde, at der ikke er nogen diskontinuitet overalt, at der ikke er noget punkt med pludselig højdespring. Men denne erklæring er det fornuftigt, hvis observerede data adskilt med et par centimeter, endsige have, hvis vi kommer ned til mikroskopiske skalaer? faktisk, eksperimentelt, holder selve begrebet "kontinuitet" nogen betydning? selv når vi går så langt som paradoks, kan der være kontinuitet på atomskalaen? desuden er det stadig relevant kun at tale om "højde" under visse observationsdimensioner?
Oprindelsen til denne pause er tydeligt identificeret: det matematiske begreb kontinuitet, streng, er en uendelig minimal forestilling , og VR er desuden en "punktvariabel". På den anden side er "kontinuitet" i henhold til sund fornuft og en fortiori "regelmæssighed" vage forestillinger, der altid er baseret (omend implicit) på en skala af observation og arbejde. Imidlertid er denne skaleringsfaktor i det væsentlige fraværende fra matematisk formalisme. Den grundlæggende rolle som geostatistikeren (og enhver modellerer ) spiller, er så at bringe de to synspunkter sammen: at specificere forestillinger, der er for vage ud fra et naturalistisk synspunkt, for at være i stand til at udtrykke dem strengt; og samtidig lette så meget som muligt de krævede matematiske antagelser, give dem mulighed for at beskrive virkeligheden "under gode forhold" - det forstås, at graden af modelens tilstrækkelighed til virkeligheden er en justerbar parameter, som generelt fortsætter med en dialog mellem geostatistikeren og hans klient.
I denne henseende er ambivalensen af udtrykket "regionaliseret variabel" skadelig her. Faktisk (med det formål at illustrere eksemplet med topografi)
Resume: virkelighed og modeller ↑ ↓ | |
Der er kun én virkelighed (fysisk); der er dog så mange (matematiske) modeller, som brugeren ønsker. Virkeligheden påtvinger sig selv på brugeren; med forbehold for matematisk nøjagtighed er brugeren a priori master i sine modeller. En model er ikke "rigtig" eller "forkert": den er effektiv eller ej, nyttig eller ej, fornuftig eller ej. Og dette gælder selv for de mest basale modeller, som den regionaliserede variabel. Under disse forhold er der ingen "ægte model": arbejde med modellereren og især geostatistikeren er ikke at finde en sandhed, der ville være skjult bag rådata, men at opbygge et matematisk objekt under hans ansvar være både en tolk, der respekterer virkeligheden (“ opstrøms begrænsning ”) og et effektivt værktøj til at besvare de stillede spørgsmål (“ nedstrøms begrænsning ”). |
Under undersøgelse er de strukturelle egenskaber ikke entydige egenskaber ved fysisk VR, men kun egenskaber ved den model, der er vedtaget her og nu ; men intet forhindrer at foreslå forskellige modeller til det samme fænomen. Mens virkeligheden pålægger os selv, er vi samtidig de eneste mestre (naturligvis inden for grænserne for sund fornuft og matematisk strenghed) af vores intellektuelle valg til at modellere det. Et emne til meditation ...
Disse metodologiske vanskeligheder øges naturligvis, når det pågældende matematiske koncept bliver mere krævende. De måske uventede bemærkninger, der netop er blevet fremsat om VR (topografi, i eksemplet), vil for eksempel blive mere afgørende, hvis vi ser på afledningen af VR. Således kan en matematisk funktion adskilles fra et domæne eller ikke; men hvilken betydning skal der gives til "afledt" - en uerstattelig uendelig minimal forestilling - om et fysisk fænomen, og desuden anerkendes det meste af tiden kun ved en endelig prøveudtagning? Med hensyn til begrebet "regelmæssighed" er det endnu farligere at manipulere, da det i matematisk funktion betyder "uendelig differentierbar", mens det på trods af dets intuitive udseende simpelthen ikke har en entydig definition. Niveau af en fysisk fænomen: Har en flod, der får mange slynger til at løbe regelmæssigt, da en fisker vil bekræfte det fra sin båd midt i vandet, eller tværtimod næsten kaotisk, som det vil bekræfte, at det er en kosmonaut, der flyver over et par hundrede kilometer? .. Der er ikke noget universelt svar.
” Modellen er aldrig identisk med virkeligheden. Utallige aspekter af virkeligheden undgår altid den, og omvendt indeholder modellen altid utallige parasitære propositioner uden nogen modstykke i virkeligheden. "
Nu i sin matematiske funktionssans, "er den regionaliserede variabel ikke identisk med virkeligheden, men i sig selv udgør den allerede en primær model ". Væsentligt for den efterfølgende udvikling af en geostatistisk undersøgelse, definitionen af denne første model er ganske vist generelt ikke særlig problematisk, men det gør det muligt at oprette den teoretiske ramme strengt og muligvis henlede opmærksomheden på de involverede vanskeligheder. Som illustration illustrerer de følgende eksempler nogle spørgsmål, der kan opstå fra dette første trin.
TopografiEn allerede nævnt første illustration, meget enkel, kan gives ved topografien for et bestemt geografisk område . På ethvert koordinatpunkt i dette område kan værdien af højden betragtes som resultatet af en anvendelse af det geografiske domæne i sættet reals
Selvom det forekommer naturligt, indebærer selve det faktum at repræsentere topografien med en VR (derfor: en funktion ) en antagelse: at lettelsen ikke præsenterer en corbel. I dette tilfælde er dette ikke en meget vigtig begrænsning, men denne bemærkning viser, at det mest harmløse modelleringstrin allerede kan omfatte antagelser. For så vidt som udviklingen af en model ikke er et mål i sig selv, men kun udgør installationen af et værktøj, der er beregnet til at besvare konkrete spørgsmål, er det godt at aldrig miste denne egenskab af syne, væsentligt, så efterfølgende teoretiske udviklinger ikke afviger skjult. fra virkeligheden. I dette specifikke tilfælde ville der være vanskeligheder med at tegne konturlinjer (for eksempel for et personalekort), hvis der var områder i det kortlagte domæne, hvor topografivariablen kan præsentere to forskellige værdier på samme punkt.: En situation bestemt meget sjælden, men ikke helt umulig i visse særlige relieffer (visse bjerge, klipper, kløfter ...).
Hvis topografien virkelig kan modelleres af en VR, skrives modelkontinuitetsegenskaben :, da dette geografiske område er , delmængde af . Denne egenskab er intuitivt forbundet med ideen om et kort, hvis konturlinjer ikke viser nogen anomali (ingen diskontinuitet og ingen akkumuleringszone). Måske af klarere fysisk betydning betyder egenskaben til stykkevis kontinuitet, som vil blive skrevet : , at der kun er et endeligt antal lodrette klipper på domænet. Og på samme måde kunne den stykkevise differentierbarhed - - fortolkes som tilstedeværelsen af et endeligt antal skarpe kanter (brud i hældning: rygge eller furer) på domænet.
Men naturligvis har disse forskellige intuitive egenskaber (ingen diskontinuiteter, ingen klipper, ingen brud i hældningen - eller kun i et endeligt antal) kun en praktisk betydning, når de er forbundet med en bestemt skala for observation, og denne skaleringsfaktor er fraværende fra den matematiske formalisme : VR “kender ikke” de betingelser, hvorunder de numeriske værdier for dataene blev erhvervet. Det er op til brugeren og ham alene at integrere disse yderligere oplysninger i fortolkningen af resultaterne produceret af en algoritme, som ikke var i stand til at tage dem i betragtning.
MeteorologiPå samme område som tidligere kan vi også være interesserede i meteorologiske parametre målt i en fast afstand fra jorden. Et punkt i det undersøgte domæne identificeres derfor denne gang med tre koordinater (for eksempel breddegrad, længdegrad og højde), så startrummet er tredimensionelt. Bemærk, at højden , som var variablen af interesse i det foregående eksempel (derfor tilhørte ankomstområdet), denne gang har status som en koordinat. Lad os antage, at man er interesseret i alle punkter med de respektive værdier for temperaturen (skalar) og for den vandrette komponent af vinden (todimensional vektor). VR (bemærket ved lejligheden) vil derfor være en ansøgning:
Dette eksempel kræver nogle bemærkninger:
I anledning af dette meteorologiske eksempel kan vi nævne et andet problem. Antag, at den første komponent i ankomstdomænet måler den geopotentialhøjde for en værdi af det atmosfæriske tryk, og at det vandrette domæne for undersøgelsen er placeret i et geografisk område, der tillader den geostrofiske tilnærmelse . Definitionsdomænet for denne nye VR er derfor form . De tre komponenter i :
er i kraft af denne tilnærmelse relateret (til fast) af et PDE-system :
hvor er en konstant ( fast), hvis domænet ikke er for stort.
Matematisk er den geostrofiske vind således kendetegnet ved geopotentialet eller igen: de sidste to komponenter i VR er kendetegnet ved den første. Dette er kun en forenkling, men dette eksempel illustrerer, at der ikke kun kan være statistiske links, men endda funktionelle forbindelser mellem komponenterne i en VR. Dette er muligheden for igen at understrege forskellen mellem de matematiske og fysiske synspunkter.
For at sige det enkelt ... ↑ ↓ | |
Resultaterne af uendelige minimale operationer, såsom afledning, kan under ingen omstændigheder under alle omstændigheder måles på basis af et endeligt sæt data, som disse operationer virker på. Vi kan kun opnå estimerede værdier , derfor produceret gennem intellektuelle konstruktioner afhængigt af vilkårlige metodologiske valg. Det er vigtigt aldrig at forvirre
|
Faktisk kunne man tro, at den geostrofiske tilnærmelse kan undlade at udføre vindmålinger. Man kunne også tro, at disse ligninger tillader, med de eneste målinger af vinden, at verificere den geostrofiske hypotese, da man skal have i kraft af Schwarz sætning :
.Men i praksis er det ikke. Dataene er nødvendigvis i et endeligt antal, det er strengt taget ikke muligt at måle vindkomponenterne ved at drive i de to hovedretninger værdierne for geopotentialet, mere end det er muligt at måle de delvise derivater af komponenterne i vinden - igen fordi afledningen er en i det væsentlige uendelig minimal operation, som fundamentalt er upraktisk med et endeligt sæt værdier.
I det højeste kunne man foreslå estimeringsalgoritmer , for eksempel for vinden fra geopotentialet, ved hjælp af de teoretiske ligninger, der leveres af fysik. Vi kan også udføre andre manipulationer baseret på de tre komponenter i VR og under hensyntagen til den teoretiske ligning, der forbinder disse tre komponenter: denne tilgang er en af grundlaget for multivariabel geostatistik (jf. Bibliografi: H. Wackernagel, 2003). Men uanset hvor interessante de således opnåede resultater kan være, er det vigtigt at huske, at dette er artefakter , produkter, der er resultatet af en algoritme, og ikke rådata. De er billeder af virkeligheden, ikke målinger af virkeligheden.
ForureningLad os forestille os som et sidste eksempel, at fænomenet, der skal undersøges, er forureningen af en flod af et bestemt forurenende stof . Under hensyntagen til den undersøgte variabel synes det hensigtsmæssigt ikke at bruge den euklidiske afstand, især hvis floden gør mange bøjninger: det er meget at foretrække at tælle afstande, mens man følger flodens forløb, da det er forløbet, der følger forurenende stof . For at forenkle eksemplet tager vi ikke hensyn til variationerne i forurening over bredden af floden, og vi antager, at det undersøgte afsnit ikke inkluderer bifloder: under disse forhold er det naturligt kun at lokalisere en måling, ikke dens krumlinjet abscissa er stadig mere konkret ved afstanden til et referencepunkt ved at følge flodens forløb. Under disse betingelser, og under forudsætning af, at forureningen foranstaltning er en skalar, VR er et simpelt program af i :
Der er ingen problemer med hensyn til geografisk placering, og startrummet kan faktisk forsynes med en metrisk. Imidlertid kan arten af den undersøgte variabel ikke tilfredsstilles med en enkelt information om afstand; når man sammenligner to punkter, er målingen af forskellen mellem dem ret dårlig information: det er især ikke irrelevant at vide, hvilket af de to punkter der er opstrøms, og hvilket der er nedstrøms. Denne information kan ikke tages i betragtning ved en afstand, som af natur er en symmetrisk funktion af de to punkter, den gælder for.
Forud for metoderne til multivariabel geostatistik kan vi foreslå at tilføje den krumlinjære abscisse som en ekstra variabel og overveje at studere variablerne i fællesskab og med de passende værktøjer til flerdimensionelt arbejde: for eksempel at studere korrelationsskyen mellem og forsøge at fremhæve en drift (trend). Derudover er det meget sandsynligt, at forureningens lokale struktur også afhænger af strømens hastighed: vi kan derfor også tilføje disse data eller rettere, hvilket utvivlsomt vil være enklere, højden, som sandsynligvis vil udgøre en god forklarende variabel. . Under disse betingelser vises VR som en applikation:
Vi kan også, hvis dataene tillader det, vælge en anden angrebsvinkel og involvere tidsfaktoren og forplantningshastigheden for det forurenende stof langs floden, derfor strømmen ...
Denne sammenfattende refleksion understreger den interesse, der kan være i at anmode om hjælpevariabler , der uden at præsentere nogen reel interesse i sig selv kan hjælpe med at forfine den strukturelle viden om variablen af interesse, samtidig med at de fortsat kan drage fordel af generelle geostatistiske værktøjer. Naturligvis introducerer tilføjelsen af nye variabler det problem, der allerede er stødt på, ved valget af en måling i ankomstområdet ... Endnu en gang er geostatistikernes ansvar afgørende for relevansen og effektiviteten af modeludviklingen.
En vigtig påmindelse: ↑ ↓ | |
Den anvendte geostatistikers tilgang styres konstant - hvilket betyder: begrænsning, men også garanteret - ved respekt for det princip, der allerede er stødt på og udtalt således af Matheron: ” Modellen er aldrig identisk med virkeligheden. Utallige aspekter af virkeligheden undgår altid den, og omvendt indeholder modellen altid utallige parasitære propositioner uden nogen modstykke i virkeligheden. " |
Kommentarerne, der hidtil har markeret etableringen af VR-begrebet, samt de få foreslåede elementære eksempler, udgør en illustration af Alfred Korzybskis aforisme : " et kort er ikke territoriet ". Den " epistemologiske pause " er faktisk allerede på arbejde, og det skal man huske på, hvis som det er almindeligt, det regionaliserede variable ordforråd bruges til at betegne både fænomenet og den matematiske funktion, der er involveret. Modellerne : VR-funktion er ikke VR-fænomenet.
Ved undersøgelse synes denne advarsel faktisk at være sund fornuft. For at komme tilbage til den geostrofiske vind for eksempel udtrykker ligningerne, at vektoren (matematisk objekt) er gradienten (matematisk operation) af den geopotentialhøjde (matematisk objekt) under antagelsen om geostrofisk ligevægt. Men hvilken betydning ville det have at erklære: "geostrofisk ligevægt er, når vinden (fysisk fænomen) er gradienten (udefineret fysisk forestilling) af den geopotentialhøjde (fysiske data)"? Den korrekte formulering, som strengt ville tage højde for forholdet mellem fænomen og model, ville være: "vi vil (per definition) sige, at der er geostrofisk ligevægt, når den vektor, der er vedtaget til at modellere vinden, kan betragtes som gradienten af den valgte funktion at modellere den geopotentielle højde ” Og i øvrigt har denne formulering også fordelen ved at understrege, at den "geostrofiske ligevægt" er en egenskab ved modellen og ikke et observerbart fysisk fænomen uafhængigt af observatøren; faktisk udgør denne formulering meget nøjagtigt en definition , strengt udtrykt, af det matematiske begreb "geostrofisk ligevægt".
Naturligvis er en sådan puristisk erklæring meget tung og findes aldrig i publikationer; risikoen for metodologiske ulykker er ganske begrænset. Så for eksempel, i geostatistisk brug, er det regionaliserede variable udtryk , afhængigt af konteksten, brugt i en eller anden af dets betydninger.
Men for at undgå mulige misforståelser skal læseren huske Korzybskis sætning. Dette er også anledningen til at bemærke, at denne aforisme implicit rejser tre vigtige punkter:
Kort og territorium: ud over værdiansættelseNaturligvis er kortet ikke territoriet, men denne skelnen bør ikke tilskynde til en klassificering, en værdidom eller et hierarki. Det ville være forkert at ønske at hævde enhver "overlegenhed" af kortet over territoriet (eller omvendt). Videnskabeligt giver det ikke mening at udtrykke en "præference" mellem virkelighed og model: disse to objekter er i det væsentlige forskellige i naturen og kan derfor ikke klassificeres. Deres epistemologiske status er forskellige, deres roller i løbet af en undersøgelse er forskellige: virkeligheden eksisterer uafhængigt af vores personlige valg og pålægges os; modellen er vores skabelse, og vi skal dominere den.
Men på samme tid, så snart vi hengiver os til anvendt geostatistik , er udviklingen af en model ikke et mål i sig selv og er beregnet til at redegøre for virkeligheden. Derfor er det vigtigt at knytte et kriterium til hver model, der gør det muligt, hvis det er muligt kvantitativt, at vurdere, om denne model er tilstrækkelig til virkeligheden. Og denne opfattelse af tilstrækkelighed, som skal defineres på forhånd , er klart betinget og afhængig af det problem, der skal løses: alt andet lige (feltundersøgelse, tilgængelige data, beregningsbegrænsninger osv.), Vil en given modellering ikke have ikke den samme relevans afhængigt af det stillede spørgsmål: Derfor ville det være fuldstændig illusorisk at håbe på at opnå et universelt værktøj til evaluering af modeller. Tværtimod er et kriterium nødvendigvis konventionelt , og dets karakterisering er tæt knyttet til det valg, der allerede er stødt på, når man definerer en metrisk: et valg, som derfor inkluderer en vigtig og uundgåelig del af vilkårlighed - dette ord har endnu engang ingen negative konnotationer. I teorien er der derfor stor frihed i valg af kriterier, selvom meget forskellige grunde (kulturelle, overvejelser om nem implementering eller endda nuværende måde i det videnskabelige samfund osv.) Kan begrænse disse valg; det er også klogt at holde sig til princippet om parsimonium .
For at sige det enkelt ... ↑ ↓ | |
Virkeligheden (territoriet) eksisterer uafhængigt af observatøren og kan kun forstås intellektuelt gennem formidlingen af en konceptualisering. Den regionaliserede variabel, den primære model , er det første trin i denne konceptualisering og udgør ved konstruktion den bedst mulige numeriske repræsentation af virkeligheden. Men på den ene side tillader dets kompleksitet ikke simpel matematisk behandling; og på den anden side er det kun tilgængeligt på et begrænset antal dataelementer. Det kan derfor kun tjene som grundlag for mere abstrakte modeller, mindre trofaste mod virkeligheden, men valgt til at blive manipuleret med matematiske værktøjer. Disse nye modeller kunne navnlig ved sammenligning med VR nu taget som en reference, gøres til genstand for en evaluering, forudsat at en kvalitet kriterium på forhånd er blevet defineret . Da der ikke kan være noget universelt mål for kvaliteten af en model, har brugeren stort spillerum til at blive enige om et sådant kriterium: han skal derfor være særlig realistisk og effektiv. |
Det er vigtigt at bemærke i denne forbindelse, at VR (funktion) generelt ikke overholder dette princip. Faktisk har VR i hvert punkt at tage en værdi, der ville være præcis, hvad man kunne måle på jorden, VR er af en utrolig kompleksitet og kan ikke forklares med et simpelt og anvendeligt matematisk udtryk. Vi kan helt sikkert overveje, at VR-funktionen beskriver VR-fænomenet på en optimal eller endog perfekt måde, men denne perfektion er steril, fordi den ikke fungerer: Vi er dømt til rent tautologiske manipulationer . Således viser den primære model sig på en væsentlig måde for det meste at være inaktiv som sådan, og det er grunden til, at geostatistik har vendt sig mod mere udførlige modeller af sandsynligheds karakter (se afsnit 3 i denne artikel). For at vende tilbage til Korzybskis aforisme kan vi således berige det ved at insistere på: "intet kort er territoriet ", og desuden er det eneste, der hævder at redegøre for virkeligheden, nøjagtigt og punkt til punkt, generelt er umuligt at gennemføre.
Når det er sagt, for enhver numerisk behandling af et givet fænomen udgør den regionaliserede variabel den mest grundlæggende irreducerbare kvantitative information, basen, hvorpå alle efterfølgende modeller kan udvikles, og den højeste reference, som vi skal vende tilbage i tilfælde af vanskeligheder. Denne grundlæggende rolle fik Matheron til at introducere den meget vigtige forestilling om regional størrelsesorden: " Vi kalder regional størrelse eller simpelthen regional , enhver funktionel af den regionaliserede variabel , der er defineret på , det vil sige enhver størrelse, hvis værdi bestemmes. Af dataene fra alle de numeriske værdier, når det gentages . »For at undgå enhver risiko for et kløft mellem den teoretiske udvikling og det virkelige problem, de skal løse, er det derfor nødvendigt at sikre, at udsagnene om resultaterne kan formuleres i regionale størrelser for i det mindste at forlade i teorien en mulighed for efterfølgende kontrol .
Det er også nødvendigt at være opmærksom på, at disse metodiske begrænsninger er virtuelle og ikke kan være aktuelle, hvis arbejdsområdet er et kontinuum , da det ikke er muligt at udføre en utallig uendelig måling. I det højeste kan man (forestille sig) at udføre målingerne på et endeligt sæt uspecificerede punkter, der er udpeget i rummet. Vanskeligheden her er ikke konceptuelt, men kun tekniske, og ligner et klassisk problem, for eksempel i prøveudtagning ; således kan en regional størrelse, hvis den ikke er begrænset til en begrænset kombination af VR-punktværdier, aldrig måles i streng forstand, men vi kan altid foreslå en tilnærmelse : det vil kun være et spørgsmål om informationsindsamling.
Sammenligning af forskellige modellerNår et evalueringskriterium er blevet aftalt, er der intet, der forhindrer sammenligning af forskellige modeller med hinanden for at udtrykke præferencer. Det kan være en simpel dikotomi: acceptable modeller vs. modeller, der skal afvises. Men hvis det er et numerisk kriterium, kan vi gå længere og klassificere de testede modeller: Vi vil generelt overveje, at en model er desto bedre, da afstanden til VR er lavere. Selvom det var meningsløst at etablere en sammenlignende værdidom mellem model og virkelighed, er det tværtimod muligt - og ønskeligt - at søge at etablere et hierarki mellem modeller. Men dette hierarki er naturligvis grundlæggende afhængigt af det anvendte kriterium og har derfor en betydelig grad af vilkårlighed.
For eksempel, hvis vi som kriterium tager en funktion af den eneste afstand fra modellen til VR, vil den bedst mulige model være ved at konstruere selve VR (funktionen); men dette svar vil naturligvis ikke være tilfredsstillende, da det er et matematisk objekt, der er umuligt at forklare og håndtere. På den anden side forhindrer intet for eksempel at modellere hele et fænomen på et bestemt domæne med det aritmetiske gennemsnit af dataene for VR målt på dette domæne: man kan næppe forestille sig enklere, men man mister al den strukturelle information om fænomenet ved at opsummere al dets kompleksitet med et enkelt nummer ...
To modsatte og supplerende synspunkter mødes i denne søgen efter et kvalitetskriterium afhængigt af den prioritet, vi giver os selv:
Endnu en gang er der ikke noget “sandt” eller “falsk” valg, når det gælder valg mellem opstrøms og nedstrøms begrænsninger. Der er fornuftige valg eller ej, effektive eller ej, afhængigt af de spørgsmål, vi vil løse, de tilgængelige midler, økonomiske begrænsninger osv. Og metodologisk stringens kræver ikke at omjustere, ad hoc og a posteriori , et kvalitetskriterium ifølge den konklusion, som man ønsker at fremme.
ModelgyldighedsområdeFor at holde tingene enkle og farverige ... ↑ ↓ | |
Af naturen søger en model altid at leve et autonomt matematisk liv og være en intellektuel konstruktion for at producere resultater, der i det væsentlige er rene artefakter . Så længe det ikke gør andet end at frigøre sig fra brugerens kontrol, er dette ikke nødvendigvis skadeligt og kan endda vise sig at være frugtbart. At lade modellen være et lille hovedtøj på halsen åbner nogle gange interessante undersøgelsesveje, der skal udforskes naturligt med forsigtighed, analytisk sind og kritisk sans. På den anden side, når modellen helt frigør sig fra henvisningen til virkeligheden, forlader vi anvendt videnskab, og vi befinder os (i bedste fald) i en rent akademisk ramme: Derfor tager vi udsagnene fra en Den model, der er blevet uafhængig ville udgøre den mest alvorlige metodiske fejl, en krænkelse af realismens tærskel . |
For stadig at forblive i Korzybskis terminologi er spørgsmålet endelig at vide, hvad der bliver af kortet ud over territoriet. Med andre ord udgør dette problemet med ekstrapolering . Faktisk er det undersøgte territorium (fysisk) nødvendigvis afgrænset, mens de (matematiske) anvendte modeller ofte har et ubegrænset gyldighedsdomæne. Nu, uden selv at gå så langt som at tale om asymptotisk adfærd , hvilken betydning kan vi så tilskrive en erklæring om modellen, der vedrører dele af rummet, der er fjernt fra de tilgængelige data? Eller igen: hvilken tillid kan vi sætte i "hvad vil fortælle os" en model uden for det domæne, som den er blevet justeret på? Spørgsmålet er ikke akademisk: F.eks. Er meteorologiske eller økonomiske prognoser i det væsentlige interessante for fremtiden, det vil sige for et tidsinterval, hvor der af natur ikke er nogen information tilgængelig til at bekræfte eller bekræfte. ' Vend modellen ...
Dette er ikke til rådighed: når modellen bliver anmodet om områder af rum eller tid, hvor den ikke kunne kontrolleres, eller når den påberåber matematiske egenskaber, som ikke kunne være forbundet med fysiske egenskaber, løber vi uundgåeligt risikoen for, at teoretisk udvikling, fremover frataget kontrol af data målt i marken, tilbyde resultater, der er blottet for al sandsynlighed, endda absurde. Årsagen til denne fare er let at forstå: vedtagelsen af en model udgør faktisk altid en forudsigende hypotese, idet modellen ifølge et allerede anført citat altid indeholder utallige parasitære propositioner uden modstykke. virkelighed. ". Det tilsyneladende paradoks er, at introduktionen af en sådan foregribende hypotese, selvom det er en kilde til farer og usikkerheder, samtidig er afgørende: det er dette, der gør det muligt at komme ud af tautologiske manipulationer på akkumuleringer af værdier. Digital og producere forståelige og operative resultater.
Sammenfattende opstår to risici ved at overskride " realismens tærskel ", to typer ekstrapoleringer :
Disse to typer ekstrapolering kan ikke i sig selv fordømmes og er undertiden endda væsentlige. Men de øger risikoen for, at metodologisk udvikling og deres konklusioner afviger uacceptabelt fra virkeligheden, risikoen for at begå en radikal fejltagelse . En uundgåelig risiko, ofte frugtbar og iboende i enhver proces med teoretisk repræsentation af virkeligheden; det er op til den praktiserende læge at udnytte sin kritiske sans og hans erfaring bedst muligt for at minimere denne risiko under hans ansvar.
En illustration af en simpel sagFor at illustrere den kritiske tilgang, der er udsat ovenfor, foreslår vi her et forenklet endimensionelt eksempel, bygget til lejligheden. Man kunne for eksempel tænke på en topografisk profil, der beskriver en lettelse ved havkanten (højdeværdierne er negative på en af domænekanterne: de kunne fortolkes som badymetriske dybder). For at rette idéer kan vi antage, at enhederne på de to akser er hektometer.
Det handler om en akademisk konstruktion, da totaliteten af den regionaliserede variabel her blev bygget af en matematisk algoritme, derfor kunne være effektivt kendt. Det er repræsenteret modsat af den lyseblå profil.
Denne situation er, strengt taget, helt urealistisk, når der arbejdes på eksperimentelle fysiske målinger, da det ikke er muligt at få adgang til effektiv viden om et kontinuum af strengt point værdier . Med en tilnærmelse, der kan betragtes som acceptabel, kan denne udtømmende kendskab til VR betragtes som opnået i visse særlige tilfælde, for eksempel i fjernmåling : det er således muligt at indrømme, at et satellitbillede giver udtømmende information om en fysisk fænomen.
I langt de fleste tilfælde måles virkeligheden dog kun numerisk ved et endeligt antal punktdata, som derudover generelt er lille. Denne situation rejser det meget vigtige problem med stikprøvetagning og især spørgsmålet om prøvernes repræsentativitet : værdien af et datasæt afhænger ikke kun af mængden af tilgængelig information, men også af dens kvalitet, det vil sige især at sige om den geografiske organisation af dets etablering.
I det eksempel, der er undersøgt her, antages det, at der kun er otte uregelmæssigt distribuerede dataelementer repræsenteret af gule prikker. Således, hvis vi kun holder os til numeriske data, udgør de otte højdeværdier (og de otte tilsvarende koordinater), der er knyttet til disse otte punkter, den eneste tilgængelige information.
Metodisk er implementeringen af dette akademiske eksempel indlysende: vi placerer os i miljøet for en reel undersøgelse, det vil sige, at vi kun tillader os at bruge de otte udpegede engangsforanstaltninger; men vi kan efterfølgende sammenligne de udførte konstruktioner og virkeligheden af den blå kurve. Denne ekstremt privilegerede situation er naturligvis ikke mulig i virkeligheden, hvor VR kun er tilgængelig i praksis over et endeligt sæt målinger. I marken består den eneste mulige kontrol af at foretage yderligere målinger på punkter, hvor der oprindeligt ikke var tilgængelige data, og sammenligne deres værdi med, hvad algoritmerne udviklede på baggrund af de oprindelige data, der blev foreslået.
Kort og territorium: ud over værdiansættelseFormålet med panelet nedenfor er kun at synliggøre den grundlæggende forskel i naturen, der adskiller "kortet" og "territoriet", og at illustrere den allerede nævnte sætning: " Modellen er aldrig identisk med virkeligheden. Utallige aspekter af virkeligheden undgår altid den, og omvendt indeholder modellen altid utallige parasitære propositioner uden nogen modstykke i virkeligheden. "
Esterel, ved havet.
Hawke's Bay, New Zealand.
Watch Hill, Rhode Island.
Foz do rio Sado.
Marion Island, Sydafrika.
Erebus-bugten, Antarktis.
Èze, Alpes-Maritimes.
De forskellige landskaber, der tilbydes, er alle til de mulige omkostninger ved en ændring af koordinaterne kompatible med VR-profilen og meget mere med de otte tilgængelige data. Deres mangfoldighed fremhæver alt, hvad modelleringsstadiet mister på niveauet med den rå viden om et fænomen, og dette fra niveauet for den primære model . Men omvendt tillader VR-matematiske funktion intellektuelle konstruktioner, der gør det muligt at gå ud over den enkle akkumulering af digitale data og at foreslå synteser, der hjælper med at berige denne fase af rå viden og foreslå ordninger til forståelse af fænomenet. Således har fænomen og model i det væsentlige komplementære roller, og geostatistikeren har til opgave at sikre denne komplementaritet gennem en undersøgelse.
Men i forbindelse med en anvendt undersøgelse siger det sig selv, at i tilfælde af uenighed mellem udviklingen af modellen og de efterfølgende kontrolobservationer er det modellen, der skal rettes: modellen er beregnet til at repræsentere den virkelige , mens sidstnævnte ikke behøver at overholde vores intellektuelle repræsentationer. Det er denne asymmetri, der gør hele den videnskabelige tilgangs effektivitet, og det er den operationelle mestring af denne asymmetri, der karakteriserer værdien af en praktiserende læge.
Sammenligning af forskellige modellerUd over VR-profilen og de otte datapunkter viser animationen modsat seks mulige modeller, der repræsenterer fænomenet.
Det blev her valgt at kun tilbyde modeller, der respekterer dataene, det vil sige, der nøjagtigt gendanner værdien af dataene på de punkter, hvor målingerne blev taget: VR passerer således som de seks modeller nøjagtigt gennem de otte datapunkter. Denne begrænsning virker sund fornuft, men den er dog på ingen måde obligatorisk: man kunne for eksempel forestille sig, at målingerne er plettet med fejl, og at det følgelig ikke er rimeligt at forsøge med al magt at gendanne den model, der vises af modellen måleenhed. Desuden ledsages måleinstrumenter normalt af tekniske specifikationer, som især giver deres grad af præcision, og denne vigtige information er et vigtigt element i vejledningen af brugeren til at definere et kvalitetskriterium for sine modeller.
Det virker derfor intuitivt, at hvis vi vælger at respektere dataene, vil de forskellige mulige repræsentationer af virkeligheden være mere ens, da der vil være mange data, da alle disse kurver vil blive tvunget til at gennemgå de samme punkter: dette er en effekt, der traditionelt kaldes> konditionering i geostatistik, og konditionering af data udgør på en måde en tilbagekaldelseskraft, der tvinger modellerne til ikke at komme for langt fra virkeligheden.
Denne intuition skal dog betragtes med forsigtighed; lad os forestille os, at VR i dette eksempel blev genkendt af 201 point: dets modellering af et polynom af grad 200 ville have været af enorm numerisk ustabilitet i henhold til koordinaterne for disse punkter, langt fra det generelle udseende af VR på trods af meget stærk konditionering . Med hensyn til konditioneringen med otte punkter er den tværtimod meget løs, og man kan på forhånd forvente, at modeller ikke kun er forskellige med hensyn til deres teksturer (morfologiske detaljeringsegenskaber), men selv med hensyn til deres generelle skridt.
Vi kan forvente af en model, der formodes at afspejle virkeligheden, mindst tre typer egenskaber:
For at sige det enkelt ... ↑ ↓ | |
Vi kan lovligt bede en model om at være smuk eller præcis eller ligne virkeligheden under den eneste betingelse at have præcist defineret betydningen af disse tre begreber. På den anden side ville det være illusorisk at forvente, at en model samtidig tilfredsstiller disse tre begrænsninger. Endnu en gang er det op til den praktiserende læge at finde ud af det og finde den rette balance mellem hvad der er muligt og hvad der er ønskeligt: hans mål er ikke at finde en hypotetisk "ægte model", men at vælge den model, der bedst vil opfylder sine forventninger. |
Hvert af disse krav har sin legitimitet og sin grad af ønskværdighed. Men selvfølgelig skal den praktiserende læge vælge, og han kan ikke forvente af en enkelt model, at disse tre begrænsninger samtidig er optimalt tilfredse : for eksempel kunne "at ligne virkeligheden" og samtidig "at være regelmæssig" ikke opfyldes. var faktisk regelmæssige, som ikke har noget generelt om naturlige variabler; eller igen, "præcisionen" af en model betyder på ingen måde, at den skal "ligne" virkeligheden. Ovenstående figur illustrerer kort disse refleksioner:
Disse eksempler kunne multipliceres ad det uendelige: det er op til den praktiserende læge og ham alene at ordne det, fordi dataene alene ikke tillader at tage et entydigt valg. Hvad mere er, skal man huske, at VR næsten altid kun delvist anerkendes ved nødvendigvis begrænset sampling, så "opstrømsbegrænsninger" ikke kun ikke kan opfyldes, men kun kan defineres ved henvisning ikke til VR selv, men til udøverens idé om det. Dette gælder især for strukturen af VR, det vil sige dens opførsel af detaljer, som af natur er eksperimentelt utilgængelige; det er grunden til, at modelleringsindsatsen skal hjælpes af en permanent dialog med naturforskere (afhængigt af tilfældet, geologer, geofysikere, meteorologer, økonomer osv.), som alene kan give denne yderligere information fraværende i dataene og alligevel vigtig. En af de særlige forhold ved den geostatistiske tilgang er straks at bringe dette problem i lyset, som faktisk vedrører al anvendt matematik.
ModelgyldighedsområdeDenne hurtige animation illustrerer, hvordan konditioneringseffekten udøves på de forskellige repræsentationer, vi kan have af virkeligheden. Som det kunne forudses, er værdierne på "kortet" stærkest begrænset i nærheden af data, og omvendt kan modellerne foreslå meget forskellige værdier, når man bevæger sig væk fra ethvert målepunkt: dette er meget klart om ekstrapolering, her for eksempel for abscissaværdier mindre end 30 eller større end 470 hm . Men man kan bemærke, at disse meget vigtige numeriske udsving kan forekomme selv i interpolation i henhold til tætheden af konditioneringsdataene eller deres relative dispositioner: dette sker f.eks. Mod abscissen 430 hm , som dog ville kunne virke tæt nok på et datapunkt. På den anden side forårsager sammenlægningen af tre data mellem abscissas 320 og 360 hm en meget stærk konditionering, så alle kortene uanset hvad de har, har meget ens værdier på dette interval.
Formålet med "fryserammerne" er at understrege, at denne konditioneringseffekt finder sted uanset de modeller, der er vedtaget for at tegne profilen, det vil sige især uanset kortets generelle udseende og struktur. Imidlertid kan vi i dette eksempel bemærke et fænomen, der ofte observeres empirisk: det er de mest matematisk regelmæssige modeller (uendeligt differentierbare, i dette tilfælde), der forårsager de mest betydelige numeriske udsving, og man kan antage det, jo mindre realistisk. Med andre ord og at bruge antropocentriske udtryk begrænses en meget regelmæssig model mindre let af virkeligheden og søger stærkere at påtvinge sig brugeren.
Som en første konklusion har vi derfor understreget de risici, der er forbundet med det, der er blevet kaldt "fysisk ekstrapolering", og fremhævet, at denne risiko kan forekomme selv inden for det samplede domæne, afhængigt af den geometriske konfiguration af dataene.
Men dette meget enkle eksempel hjælper også med at illustrere farerne ved ”metodologisk ekstrapolering”.
Da de modeller, der er foreslået her, i det mindste er forskellige, kan man således undre sig over betydningen, som deres afledte kunne have. Selvom det ikke har en klart defineret betydning at tale om afledt af et fænomen, kunne man antage, at afledningen af modellen (som efter hypotese eksisterer matematisk) giver et sandsynligt glimt af en gennemsnitlig hældning af VR, i en betydning som bør afklares. Figuren modsat viser, hvor risikabel denne hypotese er. Det handler om en zoom udført omkring det sidste datapunkt i den foregående figur, og som viser, at der kan være betydelige forskelle på niveauet for skråningerne af de forskellige "kort", herunder hvis man er placeret nøjagtigt i et datapunkt . Faktisk ved at ønske at fortolke det afledte af kortet påkalder vi en analytisk egenskab af modellen, der går langt ud over den ramme, hvor modellen faktisk blev monteret.
Naturligvis vil risikoen for at overskride realismens tærskel øges, hvis vi anmoder om en endnu mere krævende egenskab: hvis afledningen af modellen sandsynligvis ikke svarer til en hældning på niveauet for det fysiske fænomen, er det endnu mere usandsynligt end det andet afledt. kan associeres med et begreb om krumning, på trods af hvad ren matematik udtrykker ... Fremskridt med en geostatistisk undersøgelse kræver derfor endnu en gang at tilfredsstille en søgen efter ligevægt: på den ene side er det legitimt at forsøge at bruge modellen til at udtrykke egenskaber ved fænomenerne, som ikke kunne demonstreres ved en simpel manipulation af rådataene; men på den anden side er det grundlæggende at give sig selv midlerne til at kontrollere konklusionerne af modellen ved at vende tilbage til, hvad der er grundlaget for hele processen, nemlig VR selv.
Når dette ikke giver anledning til tvetydighed, respekterer vi i det følgende notationsvaner, der er anvendt i den fransktalende geostatistiske litteratur:
repræsenterer den gennemsnitlige værdi af VR på domænet uden at foregribe størrelsen på startområdet. Med hensyn til notationen repræsenterer den målingen (i matematisk forstand) af domænet : længde, areal eller volumen afhængigt af om startrummet er en, to eller tre dimensioner.
En VR kan ikke begrænses til en samling af digitale værdier placeret på punkter i arbejdsområdet, fordi “digitale værdier ikke er virkelighed, men et første billede (analytisk meget rig, strukturelt meget dårlig) af det. Ci”: kun et første billede. Naturligvis ville intet forhindre udviklingen af geostatistiske algoritmer udelukkende baseret på dette rent kvantitative aspekt og udelukkende at stole på den matematiske nøjagtighed af operationerne; Det er dog klart, at vi ved at gøre det fratager os vigtig information, der ikke findes i dataene, og alligevel afgørende for at sikre relevansen af den fremtidige behandling af disse data. Selvom rådatasættet udgør den eneste ubestridelige information og den sidste udvej i tilfælde af metodisk tvivl, "resten - de ideer, som vi selv kan danne om fænomenets oprindelse og struktur, og mere generelt vores fysiske intuition - ikke desto mindre fortsætter med at spille en meget vigtig rolle bag kulisserne. Det er generelt i denne arketypiske skat, at vi har chancerne for at finde skemaerne eller drivkræfterne for virkelig tilpassede modeller. "
Denne information, som for det meste er kvalitativ, som tilføjer betydning til de behandlede data, kan kun erhverves gennem dialog mellem geostatistikeren på den ene side og naturforskeren på den anden side eller mere generelt den praktiserende læge, der sendte problemet. Denne fase af dialog er så meget mere afgørende, da der, hvis de forsømmes, normalt ikke vil være nogen garantier, der kan beskyttes i den efterfølgende udvikling mod behandlinger uden fysisk betydning, så man risikerer at krydse " realismens tærskel " uden at være opmærksom på det . Vanskeligheden er, at geostatistikeren, især hvis han nærmer sig et nyt anvendelsesområde for ham, ikke nødvendigvis ved, hvad han skal bekymre sig om med naturforskeren; og omvendt vil den naturforsker, der ikke er fortrolig med de implementerede teorier, ikke nødvendigvis vide, hvilket følsomt punkt han skal understrege.
Der er dog konstanter, karakteristika ved VR, som geostatistikeren skal vide, uanset hvilken undersøgelse der blev foretaget, under straf for straks at miste al kontakt med den fysiske betydning af hans operationer. Vi kan således i alle tilfælde skelne mellem tre attributter (natur, domæne og arbejdsskala, support) og en egenskab (additivitet), som geostatistikeren skal være opmærksom på og holde kontrol.
VR's natur ser ikke ud til at udgøre et problem generelt: det er simpelthen et spørgsmål om først at meddele hvilken variabel af interesse, vi taler om, og angive den enhed, der bruges til at måle dataene (eller de forskellige enheder i tilfælde af en multivariabel RV).
Det er selvfølgelig vigtigt, at i et datasæt er alle prøverne af samme art og udtrykkes i de samme enheder:
Det er rigtigt, at den multivariable behandlingsformalisme er tungere og undertiden sværere at håndtere end studiet af en enkelt skalarvariabel. Vi kunne så blive fristet til at konvertere a priori oprindeligt forskellige data til en enkelt enhed og derefter håndtere problemet fra et monovariabelt perspektiv. Denne teknik anbefales ikke: den skjuler den heterogene karakter af materialet, der senere håndteres, og eliminerer derfor muligvis vigtig information. Det anbefales faktisk at være omhyggelig med at skelne prøver, der dog er strengt af samme art, men taget med udstyr og / eller på meget forskellige tidspunkter. For eksempel ville det være uklogt at foretage en undersøisk kortlægningsundersøgelse ved at blande data fra 1960'erne (før GPS-positionering kunne placeringsfejl være adskillige hektometer i åbent hav) og aktuelle data eller mere præcist er det ønskeligt at "forstå "til fremtidig behandling, at dataene har forskellige kvaliteter.
Dette sidste eksempel henleder opmærksomheden på et ofte overset punkt, men som er vigtigt for omhyggeligt geostatistisk arbejde. Ideelt set ville det være ønskeligt for enhver variabel at være associeret med en indikator for dens kvalitet. Når alt kommer til alt, giver de fleste producenter oplysninger om nøjagtigheden af deres instrumenter til fagfolk, og det ville være en skam ikke at bruge den viden. I de mest basale tilfælde er dette simpelthen en fejlmargin, et enkelt konfidensinterval for alle målinger. Men situationen kan være meget mere kompleks: således for målinger af badymetri udført af et fartøj langs parallelle profiler er det sandsynligt, at lokaliseringsfejlene langs den samme profil vil være stærkt korreleret, mens de måske vil være uafhængige mellem to profiler . Dette er meget vigtig information, som under ingen omstændigheder kan være indeholdt i de eneste målte badymetri-værdier. Det ville derfor være så rentabelt, så vidt muligt, at forbinde med VR af interesse en anden VR, der ville kvantificere præcisionen af den første, med andre ord at arbejde på en to-dimensionel VR (værdi, præcision): denne tilgang , som bestemt tilføjer vægt til beregningerne, udføres ikke ofte, men det er vigtigt at vide, at det er tilgængeligt for geostatistiske værktøjer.
Sidste punkt vedrørende VR's natur: I modsætning til hvad der ville være en rent matematisk tilgang, der kun ville fokusere på numeriske værdier uafhængigt af deres fortolkninger og deres enheder, styres geostatistikens tilgang af betydningen og arten af de data, den undersøger . Selvom kurven er den samme (med mulige ændringer tæt på enhederne på de to akser), vil den praktiserende læge ikke reagere på samme måde til plottet i en tidsserie, afhængigt af om den beskriver temperaturen hos en patient, aktiemarkedet pris, placeringen af en partikel eller en sekvens af nedbør på en vandskel ... Fordi ethvert arbejdsområde har sine specificiteter, ligesom specialisterne inden for hvert felt har deres egne erfaringer, og det ville være beklageligt eller endda katastrofalt at fratage sig selv af denne yderligere viden. Under hensyntagen til VR's natur udgør en sikkerhed, en beskyttelse mod risikoen for at overskride realismens tærskel: alt andet lige er vi sandsynligvis i stand til at acceptere negative modellerede værdier i tilfælde af højder (det er simpelthen dybder under vandet) dette bliver bekymrende, selvom det er teoretisk acceptabelt, hvis det er et spørgsmål om virksomhedsoverskud; og det vil være helt absurd, hvis det er atmosfæriske tryk. Endnu mere: det er sandsynligt, at udøveren ikke reagerer på samme måde, hvis han står over for en profil, der repræsenterer højder og er plottet uden at specificere enhederne, hvis han mener, at det er en profil af kilometrisk udvidelse, eller at det er profilen for en hel kontinent: et kort uden enheder kunne tilfredsstille den rene matematiker, men det er næsten ubrugeligt for udøveren - i det mindste set fra geostatistikens synspunkt.
I modsætning til det (matematiske) gyldighedsdomæne for en model er VR-domænet - betragtes denne gang som et fysisk objekt - en ambivalent forestilling.
"Upstream" synspunktDette er først den del af plads og / eller tid, hvor dataene er tilgængelige. Da data altid består af et endeligt sæt numeriske værdier, skal domænet naturligvis snarere forstås som en konvolut af datapunkter, generelt udvidet (i morfologisk forstand ). Det er derfor en definition, der giver plads til et element af vilkårlighed, og som er tæt forbundet med den intuitive forestilling, meget almindelig, men upræcis, om "indflydelseszonen" af data; med andre ord er VR's domæne (definition) den del af rummet, inden for hvilket man kan tro, at de tilgængelige data giver væsentlig information. Uanset hvor fuzzy og i sidste ende utilfredsstillende det kan være, er denne formulering af ubestridelig interesse: den understreger, at udvidelsen af domænet, hvor VR "med rimelighed" kan betragtes som kendt, ikke kun afhænger af geometrien af informationen, men også af den iboende struktur af den undersøgte variabel: det er for eksempel klart, at domænet for en meget uberegnelig variabel for en given prøveudtagningsplan skal betragtes som mindre omfattende end for en stærkt struktureret variabel med lille udsving; med andre ord, på et punkt fjernt fra målepunkterne, giver de tilgængelige data mindre information, hvis VR er uregelmæssig, end hvis den svinger lidt.
Denne bemærkning henleder opmærksomheden på et meget vigtigt metodologisk punkt. Det udtrykker faktisk, at afgrænsningen af domænet for en VR ikke kun skal afhænge af de allerede tilgængelige oplysninger (samplingens geometri), men også af strukturen for VR, hvilket er et kendetegn, som vi netop leder efter. skal fremhæves ved geostatistisk behandling. Dette er faktisk en "opstrøms begrænsning", idet den eksisterer inden studiens start og uafhængigt af geostatistikerens valg; men det udgør kun fremtidig information, som gradvist vil udfolde sig, og som man skal vide, hvordan man kan forudse. Med andre ord ved vi i starten af en undersøgelse ikke på forhånd med præcision, hvad der er domænet for gyldigheden af de operationer, vi skal foretage, i det mindste baseret på de eneste tilgængelige numeriske værdier: en forestilling om, at den ene ville have troet, at grundlæggende (definitionsdomænet for VR) faktisk er delvis afhængig af, hvad den senere undersøgelse vil fremhæve. Derfor er det normalt, faktisk nødvendigt og frugtbart, at en anvendt undersøgelse ikke forløber lineært, men fortsætter ved tilbagesporing og omjustering af modellerne i henhold til arbejdets fremskridt.
Konfrontationen med marken med geometrien af den tilgængelige information udgør en første tilgang til den meget vigtige opfattelse af arbejdsskala. For eksempel, hvis det anerkendte domæne er det franske hovedstadsområde, er det indlysende, at vi får et bedre kendskab til det med 551.000 data fordelt på et kvadratisk gitter på side 1 km end med for eksempel 95 data implanteret med en hastighed pr. afdeling. Meget groft, som dette forenklede eksempel antyder, kan vi først og fremmest sammenligne begrebet arbejdsskala med informationstætheden. Denne tilnærmelse er dog ikke længere gyldig, så snart prøveudtagningen distribueres heterogent: Det er således meget vanskeligt at definere en globalt signifikant arbejdsskala under en bathymetry-kampagne, der udføres på parallelle og vidt forskellige navigationsprofiler, profiler i sig selv meget tæt. ; klart, vi vil have en meget fin skala i umiddelbar nærhed af profilerne og løs, når vi står langt fra enhver profil. Dette problem afklares i geostatistikken med det vigtige begreb estimationsvarians , et kvantitativt værktøj, der er meget tæt forbundet med arbejdsskalaen, og som udgør en første grundlæggende indikator for at måle kvaliteten og pålideligheden af den foretagne modellering.
"Downstream" synspunktMen VR's domæne afhænger også af det stillede problem, og vi slutter os her til refleksionen over domænet for (matematisk) definition af modellen. Ganske vist er den del af rummet, man undrer sig over, ofte meget lig det felt, man har dataene på: dette er især tilfældet, når man udfører interpolationer . Således vil for eksempel udvidelsen af en mineralaflejring, som man søger at estimere, være meget tæt på rammen af tilgængelige data; på samme måde producerer vi ikke et topografisk kort over Alperne med data målt i Beauce ...
Dette sunde fornuftskrav kan dog ikke altid opfyldes. Det er undertiden selve karakteren af problemet, der kræver, at det undersøgte domæne overstiger det domæne, der genkendes af dataene: dette er især tilfældet, når det kommer til at lave prognoser. Vi vil tænke på øjeblikkelige eksempler inden for økonomi, epidemiologi, meteorologi og klimatologi, når arbejdsområdet er tid. Men der er flere skjulte omstændigheder. For eksempel, når vi prøver at estimere reserverne for et depositum, svarer det område, hvor vi ønsker at foretage en fortegnelse over det stof, der skal udnyttes, tydeligvis til geometrien af depositummet, bortset fra at denne information ikke er tilgængelig: depositumgrænsen er ikke kendt. Det eneste, der kan siges, er, om et givet borehul er eller ikke er i marken. Desuden er de tilgængelige oplysninger generelt interne for deponeringen af den enkle grund, at producenter ikke kan lide at finansiere boring eller analyser udført i affaldssten : Med andre ord kan domænegrænsen kun vurderes ved ekstrapolering. generelt en kilde til digitale ustabiliteter. Fra et metodologisk synspunkt er der endnu mere fare, da selve definitionen af feltet generelt er baseret på en indholdstærskel; denne variabel - indholdet - er imidlertid netop genstand for undersøgelsen: i bedste fald udsættes vi derfor for bivirkninger , som ofte er uforudsigelige, og som undertiden fuldstændigt maskerer den nyttige information. Men dybere ser vi, at der sættes en teoretisk hindring på plads, der svarer til det cirkulære argument , det vil sige knap karikering: " vi har brug for løsningen (indholdet på alle punkter) for at stille problemet korrekt (afgrænse det volumen, hvorpå vi estimerer depositum) ”; hvis vi kun holder os til numeriske data, og hvis vi ikke ønsker at begå en alvorlig metodologisk fejl, er vi i en blindgyde. Forstærkning af information, der er ekstern til de digitale data, er så her absolut nødvendigt.
Desuden, selvom man forbliver i et studiefelt, der minder meget om det anerkendte felt, vil man måske ændre arbejdsskalaen. På det modsatte eksempel foreslås det, hvis man ønsker at udføre en kartografi af de geokemiske værdier på et firkantet maske på siden 5 m , det betyder, at man ønsker et resultat i en skala, der er ca. 15 gange finere end skalaen på indledende information, da distributionen af data i gennemsnit svarer til et 75 m gitter . Der er et afgørende punkt at bemærke her: absolut intet, i starten af undersøgelsen og på basis af kun 412 data, gør det muligt at vide, om projektet til at forfine med en faktor 15 den oprindelige skala er legitimt eller ej. . Det er klart, at begrundelsen for denne operation nøje vil afhænge af strukturen af den undersøgte variabel, og at en acceptabel operation for en meget stærkt struktureret variabel bliver urealistisk for en meget uberegnelig variabel; problemet er, at denne struktur kun kan forstås ud fra de tilgængelige data, det vil sige i den mindste skala: her står vi over for et problem, der ligner metodisk meget det, der er stødt på i teorisignalet . Igen skal udøveren påberåbe sig sin erfaring og vide, hvordan man viser forventning, før kritiske manipulationer kan tillade ham - men kun efterfølgende - at bedømme relevansen af hans valg.
Resume illustrationBaseret på de tidligere nævnte data (geokemi på øen Vulcano) illustrerer følgende billeder nogle problemer i forbindelse med repræsentationen af en RV og dens egenskaber:
Denne forenklede figur illustrerer et af de første formål med elementært geostatistisk arbejde: "udfyldning af informationshuller". Foruden grænserne for domænet, der pålægges her, er det eneste, der virkelig er kendt, sættet med 412 data, der ses på den første miniaturebillede: men denne objektive information kan ikke kortlægges på hele domænet, da dette udgør et kontinuum . Dette første billede er meget vanskeligt at læse og fortolke strukturelt.
Den anden vignet tilbyder et første visualiseringsspor: en score af Voronoï med en farvekodning, der gør det muligt at få en idé om den rumlige strukturering af VR. Men det siger sig selv, at dette er en meget grov repræsentation, og at ingen kan forestille sig, at virkeligheden (som man kunne observere den, hvis man foretog yderligere målinger) virkelig kan se ud som det, der viser dette billede. Dette er en første modellering, en første interpolation, derudover ekstremt tvivlsom. Det har faktisk matematiske egenskaber (det er konstant i stykker), som i dette tilfælde ikke har nogen chance for at svare til en fysisk virkelighed.
De sidste to miniaturebilleder repræsenterer nøjagtigt det samme sæt værdier, hvilket er en interpolation bygget på basis af 412-dataene. Kun skalaerne for repræsentation adskiller sig henholdsvis 75 m og 5 m . Den første af disse værdier blev valgt, fordi det svarer til, hvad der ville være en regelmæssig fordeling af 412-dataene: der er således det samme antal værdier for VR repræsenteret på miniaturebillederne 2 og 3. Vi bemærker, at disse parametre “Downstream”, vilkårlig, har en betydelig indvirkning på kortenes udseende. Vi kan forestille os, at skakbrætaspektet i den tredje vignet er en ren artefakt ; men det skal ses, at en ganske lignende effekt ville vises på den fjerde vignet, hvis vi observerede den mere detaljeret ... Disse effekter, tydeligt synlige konsekvenser af driftstilstanden her, er strengt uundgåelige, og det er vigtigt ikke at give dem en fysisk betydning, som de ikke kunne have.
Begrebet skala, et væsentligt begreb med geostatistik: refleksionselementer
Det giver absolut ingen mening at tale om en "stor skala" eller en "stor" afstand. Det er naturligvis legitimt at sammenligne skalaer og sige, at den ene er finere end den anden, og fortiori at sammenligne længder, men dette relative aspekt tager kun meget ufuldstændigt hensyn til begrebet og dets problemer.
Den arbejder skalaen afhænger af mindst tre faktorer, som ikke alle tilgængelige på samme tid af en undersøgelse, og som til tider stiller modstridende krav:
Et stort metodologisk problem er, at denne sidste og vigtigste faktor ikke er kendt i starten af undersøgelsen, og kun kommer gradvist frem i lyset. Meget mere: dens viden er afhængig af informationens tæthed, i værste fald muligheden for at okkultere fænomenets egenskaber ved prøvetagningssystemets egenskaber (stærk analogi med Shannons sætning og aliasing ). Men uden at gå så langt som ekstreme tilfælde er det klart, at de fineste strukturelle træk ikke kan fremhæves med et løst genkendelsesnet. Igen skal vi søge en balance mellem det, der er ønskeligt (en detaljeret viden om fænomenet - men måske for detaljeret information er overflødig for det stillede problem?) Og hvad er muligt (indsamling af information koster og er endda undertiden destruktiv) ).
Denne balance er afgørende, fordi den opfattelse, vi har af egenskaberne ved en VR, i modsætning til hvad der generelt sker fra et rent matematisk perspektiv, i det væsentlige afhænger af den skala, hvormed vi sætter spørgsmålstegn ved denne VR, der betragtes som et fysisk objekt. Således vil det samme objekt, for eksempel et 100 km bjergkæde , ikke have de samme egenskaber for en fotograf, der fanger sin overordnede panoramaprofil med henblik på en geografisk gennemgang (ca. arbejdsskala: ca. ti kilometer) og for en bjergbestiger, der klatrer hovedtoppene i den samme kæde (omtrentlig arbejdsskala: mindre end en decameter); samme VR, samme domæne, men meget forskellige arbejdsskalaer: De relevante matematiske modeller vil utvivlsomt også være meget forskellige.
Når man afslutter en undersøgelse, er det ofte overflødigt at huske de strukturelle parametre for den undersøgte variabel (punkt 3 ovenfor), selvom disse parametre var de vigtigste for udførelsen af modelleringen, der tillod undersøgelsen: minedriftoperatøren ønsker frem for alt en evaluering af hans depositum, ikke et teoretisk billede af denne depositum. På den anden side er det vigtigt, at parametrene, der beskriver den indledende prøveudtagning (punkt 1), ikke vises igen som forstyrrende elementer i det endelige resultat: et badymetrikort skal repræsentere undervandsaflastningen, ikke forløbet for det fartøj, der udførte målingerne . Endelig, ligesom enhver figur skal have en forklaring og ethvert kort over graduerede akser, er det vigtigt, at undersøgelsesrammen (punkt 2) huskes detaljeret i afslutningen af arbejdet, da det er på det, der afhænger af betydningen af resultaterne: det er en garanti mod risikoen for ” metodologisk ekstrapolering ”.For at sige det enkelt ... ↑ ↓ | |
Uvigtigt, hvis vi holder os til en ren matematisk formalisme, er begreberne natur og domæne for en VR såvel som forestillingen om arbejdets omfang vigtige for forståelsen af det undersøgte fænomen og realismen af undersøgelserne. Under hensyntagen til VR 's natur er det muligt at placere undersøgelsen i dens fysiske sammenhæng, undgå et eventuelt overforbrug af matematiske modeller og drage fordel af praktikernes erfaring. Afgrænsningen af domænet , hvad enten det pålægges af eksterne overvejelser, eller at det skyldes selve VR's egenskaber, er afgørende for at opdage de mulige bivirkninger og kontrollere dem eller i det mindste at kvantificere dem. Endelig er arbejdsskalaen et komplekst element, der afhænger både af betingede parametre (opstrøms: prøveudtagningsskemaet, nedstrøms: rammen om det stillede problem) og af faktorer, der er forbundet med VR's fysik. Brugeren har kun delvis frihed til at indstille sin arbejdsskala, og samtidig skal han huske på, at svaret på et tilsyneladende unikt geostatistisk problem faktisk i det væsentlige afhænger af den skala, der er blevet vedtaget. |
Matematisk vil en VR være en funktion i startrummet, og derfor tage en værdi på ethvert punkt i dette rum. Under disse betingelser vil "kende" visse værdier for VR betyde, at målingen faktisk er udført i et (nødvendigvis endeligt) antal punkter. Man kan imidlertid aldrig udføre en sådan måling: selv for variabler så enkle som topografiske dimensioner, temperaturer eller tryk er de værdier, der kommunikeres af apparatet, aldrig strengt punktlige, kun hvis de er på grund af måleapparatets størrelse; og på samme måde er en tidsmåling aldrig strengt øjeblikkelig, en hvilken som helst enhed udviser en mere eller mindre udtalt hystereseeffekt . Vi kan naturligvis overveje, at der i de første eksempler, der netop er citeret, ikke er nogen fare ved at betragte dataene som mærkbart punktlignende, men der er situationer, hvor denne tilnærmelse ikke længere er acceptabel. I minegenostostatik udføres således en mineralogisk analyse altid på en prøve med et bestemt volumen (f.eks. En kerne ), og værdien af den opnåede kvalitet er faktisk i dette tilfælde gennemsnittet af karaktererne lejlighedsvis til stede på denne gulerod. Den værdi, der måles, afhænger derfor af variablen af interesse (indholdet), men også af betingede parametre såsom kernens størrelse og form. Samme ting i meteorologi, hvor den målte nedbør ikke er en mængde vand faldet øjeblikkeligt, men akkumuleringen af det, der faldt i en vilkårligt fast periode. Som et sidste mere komplekst eksempel kan vi endelig citere måling af havets højde , der i øjeblikket er kendt med centimetrisk præcision: sådan en præcision, der vedrører et rumtemporalt fænomen, som ved et punkt med faste koordinater kan opleve udsving på nogle få snesevis af meter giver kun mening, hvis variablen af interesse er defineret som et gennemsnit beregnet over et veldefineret geografisk medium og tidsinterval; og robustheden af dette gennemsnit vil helt klart være helt afhængig af denne understøttelse og dette interval.
Der kan også være situationer, hvor selve VR-karakteren gør det umuligt at overveje engangsforanstaltninger, selv tilnærmede. For eksempel afhænger radioaktivitetsværdien målt ved et punkt ikke af uranprospektering kun af aktiviteten af den radiokilde, der er placeret på dette punkt, men af hele miljøet, og dette ved at følge en perfekt kendt vægtningslov. Det samme gælder for geofysik (gravimetri eller magnetisme): de observerede værdier på et tidspunkt er indikative for et helt miljø, idet det forstås, at fjernere regioner har en svagere indflydelse end den umiddelbare nærhed af det punkt, hvor målingen foretages. målt.
På denne måde er enhver måling i virkeligheden en mere eller mindre forstærket regulering ( udjævning ) af punktværdierne for VR (i matematisk forstand). Denne reguleringseffekt er altid iboende i processen med at foretage målinger og undertiden i tillæg til arten af det fænomen, der måles. Det kan let modelleres: en instrumentmåling vises altid matematisk som et produkt af kollision af VR (teoretisk punkt) af en bestemt operatør afhængigt af måleenheden og / eller fænomenets fysik. Imidlertid to bemærkninger:
For at opsummere ... ↑ ↓ | |
Selvom VR- understøttelsen hyppigt betragtes som en gang, giver det VR- understøttelsen et billede af det rumlige domæne, som i nærheden af hvert målepunkt bidrager til den værdi, der er tildelt VR på det tidspunkt. Karakteristikken ved denne understøttelse afhænger af udstyret og målebetingelserne og nogle gange af fænomenets fysik. Matematisk griber en ikke-punktstøtte ind i den geostatistiske formalisme som en konvolutionsoperator; i praksis svarer dette skematisk til at tage et glidende gennemsnit (muligvis vægtet). |
Under hensyntagen til en reguleringsstøtte indføres derfor en ny skalafaktor. Denne nye faktor griber ind mere diskret end de andre, når det kommer til at definere betingelserne for databehandling, for eksempel under estimeringer eller numeriske simuleringer: valget af datapunkter, der skal bruges til at udføre en interpolation, er meget mere afhængig af strukturen af fænomenet og tætheden af information end på mediet; på den anden side har støtten en væsentlig betydning for de statistikker, der udføres af dataene, og især med hensyn til variabiliteten . Således bestod et af de første bemærkelsesværdige historiske bidrag fra geostatistik inden for minedrift i at forklare og modellere det faktum, at kvaliteterne målt på tynde sektioner var mere svingende og mindre strukturerede end kvaliteterne (af samme malm på den samme mine) .) målt på gulerødder.
Sidste bemærkning: fænomenet regulering har en direkte indflydelse på strukturen af strukturelle efterforskningsværktøjer, især variogrammet , og denne karakteristiske virkning er meget let at modellere. Omvendt kan geostatistiske værktøjer i visse tilfælde gøre det muligt at diagnosticere, at målinger, som menes at være kvasipunktuelle, i virkeligheden er regulerede.
En VR siges at være "additiv", hvis den samlede værdi, som den tager på et sæt uafhængige geografiske domæner, er lig med summen af de værdier, der er taget på hvert af disse domæner. F.eks. Er en tonnage af metal, der er indeholdt i et trin, i en miner med åben pit faktisk lig med summen af tonnagerne på hver af de forskellige blokke, der udgør dette trin: mængden af metal er en additivvariabel; endnu enklere i dette eksempel er det det samme for lydstyrken. Ligeledes mængder varme eller elektricitet, masser, volumener produceret af en oliebrønd (som en funktion af tiden) osv. er additive variabler. Denne egenskab er især interessant, fordi det gør skalaændringsmekanismer meget lette, samtidig med at man holder en fysisk fornemmelse af operationerne.
Uden at være additiv er der variabler, der også drager fordel af gode egenskaber, fordi vi kan reduceres til det foregående tilfælde ved hjælp af en simpel transformation. Dette er for eksempel tilfældet med indholdet: det samlede indhold af et sæt af flere blokke er ikke lig med summen af indholdet af hver af dem; men hvis vi multiplicerer hvert af indholdet med volumenet af den tilsvarende blok, får vi en masse, der er en additivvariabel, og summen af masserne divideret med summen af volumener giver det samlede indhold. Denne gang opnås det endelige resultat som ikke længere et beløb, men et vægtet gennemsnit; bemærk desuden, at hvis alle blokke havde samme volumen, ville det være et simpelt aritmetisk gennemsnit. Denne situation findes for eksempel i hydrogeologi med en variabel som porøsitet , i landbruget med udbytter pr. Hektar, i epidemiologi med antal patienter efter kommune eller afdeling, i miljøet med forureningshastigheder. I sidstnævnte tilfælde kan vi også vende tilbage til det midlertidigt additive tilfælde, hvis det er et stof, der ikke nedbrydes, såsom et tungmetal osv. Vi bemærker i alle tilfælde, at det for at vende tilbage til en additivmængde er nødvendigt at bruge en hjælpevariabel, ofte af geometrisk art, såsom arealet eller volumenet, varigheden eller massen: det er også naturligt nødvendigt, at dette hjælpevariablen er korrekt samplet, og dette er et tilfælde, hvor geostatistikeren kan være et godt råd til sin klient fra målekampagnen.
Den metodologiske interesse for en additivvariabel er betydelig. Faktisk opnår man altid værdier, der har en klar fysisk betydning, og som desuden - i det mindste ved tanken - kan genstand for eksperimentelle kontroller ved at udføre akkumuleringer af denne variabel på så varierede domæner som muligt. Derudover gør de enkleste værktøjer inden for lineær geostatistik det muligt at teoretisk formalisere disse transformationer (akkumuleringer eller vægtede gennemsnit) og gøre dem operationelle. Den eneste betingede grænse for denne kontrolfase er mængden af tilgængelig information.
For at sige det enkelt ... ↑ ↓ | |
En additivvariabel holder den samme fysiske betydning på alle understøtninger: dens værdi i det hele (geografisk) er lig med summen af dens værdier på delene. I forlængelse heraf kan vi omhyggeligt beholde det samme ord for at kvalificere variabler, som kan reduceres til det strenge additiv tilfælde på bekostning af en simpel transformation. Under disse betingelser har en additivvariablen det særlige, at den ikke forårsager en fremkomsteffekt . Uden at være strengt nødvendigt for geostatistisk arbejde letter egenskaben additivitet i væsentlig grad teoretisk udvikling, især hvis det er nødvendigt at foretage ændringer af understøtninger eller skalaer. I modsætning hertil kræver ikke-additive variabler stor forsigtighed i deres manipulation og gør den operative genopbygningsfase både meget mere afgørende og meget vanskeligere. |
For at komme tættere på en fælles forestilling, kan vi sige, at VR tilsætningsstof eller som kan reduceres til et tilsætningsstof adfærd har særlige ved ikke at forårsage en fremkomsten fænomen .
Desværre er mange variabler ikke additive. For eksempel er en temperatur ikke kun additiv i streng forstand, men det er ikke sikkert, at et gennemsnit af temperaturer har en ubestridelig fysisk betydning , uanset om dette gennemsnit er rumligt eller tidsmæssigt. Dette betyder selvfølgelig ikke, at dette gennemsnit vil være ubrugeligt: man kan således forestille sig, at det tager et legitimt sted i (for eksempel) evolutionsligninger; man kan endda (i det mindste ved tanke) kontrollere det "på jorden" og derfor har det en objektiv betydning; men det er umuligt at forestille sig et fysisk fænomen, der på et givet sted og på en given dato tager den værdi, der er angivet af dette rumtidsgennemsnit: denne værdi er derfor hverken mere eller mindre end resultatet af en procesberegning.
Et andet eksempel på ikke-additiv VR, meget mere kompleks at behandle, tilvejebringes af hydrogeologi med variabel permeabilitet . Der er ingen enkle sammenhænge mellem de forskellige permeabiliteter målt i forskellige skalaer (mikroskopisk og makroskopisk); der er ikke noget enkelt udtryk, der gør det muligt at relatere permeabiliteten på to volumenheder og den deraf følgende permeabilitet på foreningen af disse to volumener, og selv de tilgængelige udtryk afhænger af rumets dimension. Under disse betingelser er det klart, at et beløb (muligvis vægtet) af to permeabiliteter ikke har nogen fysisk betydning, og selvom der ikke foretages nogen skalaændring, kan en simpel interpolering allerede være problematisk: i dette tilfælde er det ikke den matematiske værktøjer, der viser svagheder, men det er et fysisk fænomen, der afslører dets ekstreme kompleksitet. Under disse forhold og mere generelt for ikke-additive RVs siger det sig selv, at geostatistisk arbejde skal udføres med maksimal forsigtighed.
Fra begyndelsen af geostatistik optrådte de grænser, der er forbundet med et arbejde, der udelukkende er baseret på den primære model, både på det teoretiske niveau og på implementeringsniveauet. De udviklede formalismer, og som udgør genstand for transitiv geostatistik , udtrykkes i det væsentlige for information tilgængelig på et regelmæssigt net (muligvis med huller), som kan være egnet til visse problemer (billedanalyse, for eksempel eller estimater på overflade eller volumen), men er ikke egnet til uregelmæssig prøvetagning, som det findes i de fleste undersøgelser: denne vanskelighed stødte på fra de første anvendte værker, der vedrørte skøn over minedrift. Imidlertid kunne det have været interessant at forsøge at løse dette rent tekniske problem, mens vi forbliver inden for rammerne af den primære model, da denne model synes tilfredsstillende: den kræver faktisk ikke nogen særlig antagelse vedrørende strukturen af den undersøgte VR og værktøjer til transitiv geostatistik er i det væsentlige tilpasset til at arbejde på et afgrænset felt, hvilket svarer nøjagtigt til rammerne for en reel undersøgelse.
Antropocentrisk blink ... ↑ ↓ | |
Vi må undgå at bede en model om at bedømme sig selv. I bedste fald kan han ikke; i værste fald vil det være selvretfærdigt. Den primære model og transitive geostatistik er ingen undtagelse fra denne regel. Yderligere værktøjer og antagelser er nødvendige for at bryde dødvandet, og valget af indre geostatistik er at ty til en sandsynlig formalisme. |
Der vises dog en grundlæggende hindring, så snart man ønsker at evaluere kvaliteten af de foreslåede resultater. Uanset om det drejer sig om interpolering, estimering eller anden algoritmisk operation udført på et datasæt, er det klart, at det ikke er muligt at være tilfreds med produktionen af et enkelt nummer (eller et enkelt kort); det er også nødvendigt, at vi har en foranstaltning, der i det mindste indikerer pålideligheden af dette resultat. Her vises imidlertid et dybtgående resultat, der sætter grænserne for den transitive metode: ” Det er teoretisk umuligt at udlede fra de samme eksperimentelle data både et estimat og præcisionen af dette estimat. "At forblive med en eksklusiv brug af VR har ingen vej ud: hvis vi" er enige om at sige, at en model er strengt objektiv, hvis dens specifikationskriterier kun involverer objektive parametre (identificerbare med regionale størrelser) og metodologiske parametre (pålagt uden tvetydighed af problemet til skal løses og metoden vælges) med undtagelse af enhver anden form for konventionelle parametre ”, så” er det klart, at en strengt objektiv model - og netop fordi den er strengt objektiv - ikke kun kan være tautologisk : den repræsenterer kun i en anden form de samme oplysninger, som er indeholdt i VR-dataene ”.
Fra et teoretisk synspunkt er der en ond cirkel. " I praksis gør indførelsen af visse rimelige hypoteser om tilnærmelse eller forenkling det dog muligt at bryde cirklen ": disse er de forventede hypoteser, " med deres fertilitet og den sårbarhed, det indebærer ". Historisk set har data for data, der er arrangeret ved knudepunkterne for et almindeligt gitter, anvendt en subterfuge: at overveje, at gitterets oprindelse er valgt tilfældigt på en ensartet måde, som ipso facto giver regionale størrelser en tilfældig status, og som derfor åbner dør til mulige variansberegninger , dvs. kvalitetsmålingsværktøjer. Denne tilgang virker så meget mere tilfredsstillende, da den ikke indebærer nogen a priori hypotese om egenskaberne (statistisk, strukturel) af selve VR. På overfladen er problemet løst, selvom svaret stærkt afhænger af regelmæssigheden af prøvetagningsnettet: selvfølgelig er der mange situationer, hvor det antages, at de regelmæssigt distribuerede data ikke vil være en acceptabel tilnærmelse. Men der er et dybere resultat, som den teoretiske tilgang fremhæver: alt andet lige, kan en teoretisk varians af en estimator præsentere betydelige og ukontrollerbare numeriske udsving for små variationer i maskens dimension. Uventet befinder vi os i, hvad Matheron kalder en " foreløbig situation ": "Idéen om tilfældighed", det vil sige i virkeligheden brugen af probabilistiske modeller, introduceres i fysikken, når de oprindelige betingelser uadskillelige eksperimentelt efterfølgende efterfølges efterfulgt af en åbenbar adskillelse af de observerede fænomener ". »Og senere, når vi vælger at repræsentere den strukturelle funktion - som er en regional størrelse - ved en enklere model, kan vi fortolke denne model« som en overgang til matematisk forventning ». På en måde pålægger den sandsynlige ramme sig selv.
Den iboende geostatistiske valgte at tage springet og placere bevidst som en del af en sandsynlig modellering, og dette valg har fundet sted siden geostatistikens begyndelse. Efterfølgende udvikling har vist, at denne formalisme er perfekt operationel og åbner flere perspektiver, selvom den er baseret på en meget mere abstrakt teori end transitiv geostatistik. Transitiv formalisme kan betragtes som oprindelsen til matematisk morfologi , og den udgør en ubestridelig uddannelsesmæssig interesse; men inden for rammerne af geostatistik bruges det næppe mere undtagen til behandling af problemer af geometrisk natur.
Epistemologisk statusValget af iboende geostatistik er at knytte en tilfældig funktion (FA) til enhver VR , hvoraf VR vil blive betragtet som en realisering .
Dette valg - fordi det er en perfekt vilkårlig beslutning - dikteres kun af operationelle overvejelser. Det blev inspireret af refleksioner om status for VR og blev efterfølgende forstærket af praksis og udvikling inden for geostatistik. Men det betyder ikke, at den virkelighed, vi studerer, virkelig kommer fra et tilfældigt fænomen. Desuden er at hævde, at det virkelige er udspringet af en eller anden form for tilfældigheder, et forslag, der hverken kan kontrolleres eller tilbagevises, og som følgelig falder uden for videnskabelig diskurs. Hvad der på den anden side kan være genstand for videnskabeligt arbejde er studiet af tilstrækkeligheden af en tilfældig model til den undersøgte virkelighed. Således kan vi med en fast tilnærmelsesgrad kontrollere, om en probabilistisk model gør det muligt at redegøre for den tilgængelige information eller ej, og det er præcis, hvad geostatistikken sigter mod at gøre; men svaret er ikke eksklusivt, og det er fuldt ud muligt, at fundamentalt modstridende modeller samtidig tegner sig for det samme fænomen med samme kvalitet.
A fortiori ville det være nytteløst at forsøge at give en objektiv mening til det sandsynlige rum, som AF er defineret med: hvilken håndgribelig virkelighed kunne vi give til det univers , hvor VR studeret skulle have været taget? og frem for alt, hvordan kunne vi få adgang til loven om sandsynligheden for denne prøve, vel vidende at vi kun har et resultat (VR) af den nævnte prøve? Når det er sagt, selv ved at afvise metafysiske spekulationer om sandsynligt rum, kan vi ikke undgå det metodologiske spørgsmål, der ligger til grund for hele processen med indre geostatistik: hvordan kan vi retfærdiggøre brugen af sandsynlighedsmodeller til at redegøre for et unikt fænomen? Svaret gives gradvist i de successive faser af opsætningen af den indre formalisme; Det kan også bemærkes, at dette spørgsmål implicit er hovedemnet for Estimate and Choose , som undersøger alle dets aspekter og implikationer.
Under alle omstændigheder er det klart, at brugen af probabilistisk modellering udvikler mere abstrakte værktøjer end den direkte behandling af VR, og at risikoen for at miste kontakten med virkeligheden og overskride realismens tærskel øges betydeligt. Denne risikotagning er kun begrundet med effektiviteten af dette nye abstraktionsniveau, effektivitet bemærket af alle undersøgelser og al den udvikling, der er foretaget siden begyndelsen af anvendt geostatistik. Dybest set er de metodiske forholdsregler, der skal tages, nøjagtigt de, der er nævnt i forbindelse med den primære model, og selvom de er mere afgørende her, er der ikke behov for at gentage dem. Paradoksalt nok, mens der stadig var en reel risiko for forvirring på niveauet med den primære model, da VR let kunne forveksles med fænomenet, er faren for forvirring her minimal: ingen har nogensinde observeret et sandsynligt rum, ingen har haft aldrig rørt en lov om sandsynligheder. Disse matematiske væsener, hvorfra der forventes meget på niveau med teoretiske konstruktioner, er på ingen måde regionale størrelser : de er rene artefakter , produkter af vores intellekt. Det er derfor klart, at elementerne i det sandsynlige rum absolut må udelukkes fra det endelige resultat, hvis denne hævder at være forbundet med en fysisk egenskab, der kan kontrolleres "i marken": fasen med operativ rekonstruktion er her afgørende, hvis vi ønsker bare, at konklusionerne af en undersøgelse skal have konkret betydning.
SkrivningskonventionerEt sandsynligt rum er normalt repræsenteret af en triplet
eller:
Hvis vi som i de foregående eksempler betegner startrummet ("geografisk") med , vil en tilfældig funktion blive defineret som en familie af tilfældige variabler defineret på det sandsynlige rum og med værdier i ankomstområdet, hvor denne familie indekseres af . En mulig notation er derfor
Husk: ↑ ↓ | |
Det er almindeligt i geostatistiske publikationer at traditionelt repræsentere regionale (deterministiske) størrelser med små bogstaver og de tilknyttede tilfældige størrelser med store bogstaver. Derudover præsenterer vi det meste af tiden tilfældige funktioner som værende en funktion af det eneste geografiske rum ved at udelade henvisningen til det sandsynlige rum, som de er defineret på. |
Denne skrivning fremhæver imidlertid ikke tilstrækkeligt det faktum, at sættet skal være et metrisk rum, og at vi primært er interesseret i de strukturelle egenskaber, der betragtes som en funktion på . Så geostatistik foretrækker at notere en tilfældig funktion som en funktion af to variabler, den ene spænder over det sandsynlige rum og den anden det "geografiske" rum. For at brugen f.eks. Skal repræsentere en ægte AF i form
.Denne præsentation i form af en funktion af to variabler viser, at:
Faktisk på den ene side fordi begivenhedsområdet ikke har nogen fysisk virkelighed (derfor heller ikke), på den anden side fordi det hovedsagelig er struktureringen i startrummet, der interesserer geostatistikeren, skriver vi generelt FA som en funktion af en enkelt variabel : og fremhæver således paralleliteten med den tilknyttede VR . Tilfældighed afsløres traditionelt ved brug af et stort bogstav.
Når man således associerer en AF med en VR , vil det automatisk være muligt at tilknytte en hvilken som helst regional størrelse en sandsynlig version, som vil blive opnået ved at erstatte VR i dets udtryk med AF; og på skriveniveau vil det simpelthen betyde at ændre små bogstaver til store bogstaver. Således holder vi de tidligere definerede skrivekonventioner og har korrespondancetabellen:
VR-version | FA-version | ||
---|---|---|---|
Status | Bedømmelse | Bedømmelse | Status |
Nummer | Tilfældig variabel | ||
Fungere | Tilfældig funktion | ||
Nummer | Tilfældig variabel | ||
Nummer | Tilfældig variabel | ||
Fungere | Tilfældig funktion | ||
Fungere | Tilfældig funktion |
Det er nu at afklare den intellektuelle mekanisme, der regulerer sammenhængen mellem en VR og en AF, for derefter at beskrive, hvordan denne mekanisme griber ind i en geostatistisk undersøgelse.
Fra et rent matematisk synspunkt at skrive en AF som en funktion af to variabler på et abstrakt sæt :
viser, hvordan en tilfældig funktion genererer regionaliserede variabler: for hver fast begivenhed (element) i stammen , den delvise anvendelse
For at gøre det meget simpelt ... ↑ | |
Ligesom realiseringen af et tilfældigt eksperiment kan betragtes som tegningen tilfældigt ifølge en bestemt sandsynlighedslov af en numerisk værdi blandt alle de mulige værdier, som en tilfældig variabel kan tage. Ligeledes udgør realiseringen af en tilfældig funktion tilfældigt, i henhold til en bestemt sandsynlighedslov, en bestemt funktion blandt alle de mulige funktioner, som AF foreslår. I det første tilfælde er resultatet af realiseringen et tal (eller en multiplet af tal); i den geostatistiske tilgang er resultatet af en præstation en funktion af det ”geografiske” rum, det vil sige en regionaliseret variabel. |
bliver faktisk en funktion af en enkelt variabel defineret på det enkelte geografiske sæt . Enhver henvisning til en sandsynlig kontekst kasseres nu, så ifølge skrivekonventioner er det legitimt at repræsentere denne funktion med små bogstaver. Og denne funktion har nøjagtigt betydningen af en regionaliseret variabel. Så når du har en AF , kan du opbygge så mange VR'er, som du kan vælge imellem fra den underliggende Event Tribe.
Denne konstruktion er for øjeblikket rent algebraisk og bringer kun sandsynlighedsrummet i spil . Det tilfældige aspekt griber ind i vejen for valg , og dette valg vil være afhængig af loven om sandsynlighed , så intuitivt vil al mulig VR, der er forbundet med den samme AF, generelt ikke have den samme chance for at blive trukket. Den komplette mekanisme, der først består i at tilfældigt tegne en begivenhed og derefter forbinde den med den tilsvarende VR kaldes realisering af processen (synonym: AF) og i forlængelse vil vi kort sagt sige, at "VR er en realisering af AF ".
Denne sidste formulering undgår både stammen og sandsynlighedsloven : dette er på ingen måde akavet, for så vidt som disse to matematiske begreber strengt taget ikke har nogen objektiv eksistens, af denne grund bør kun gribe ind så diskret som muligt i den algoritmiske udvikling ( princippet om parsimonium ) og må ikke være til stede i erklæringen om det endelige resultat af en anvendt undersøgelse.
På den anden side skal det understreges, at VR kun er en - og kun en - realisering, blandt mange andre mulige inden for rammerne af den underliggende sandsynlighedsmodel. Med andre ord er FA-modellen meget rigere og mere kompleks end VR-modellen, og også meget mere abstrakt, fordi den afhænger af mange faktorer (begivenhedsstamme, lov om sandsynlighed), som ikke har nogen objektiv betydning. Og derfor ikke kan være genstand for af eksperimentel kontrol. På et praktisk niveau skal vi være opmærksomme på, at anvendelse af en sandsynlighedsmodel øger risikoen for at krydse realismens tærskel betydeligt ; og på det epistemologiske niveau skal vi sætte spørgsmålstegn ved betydningen af at ville repræsentere et enkelt fænomen (VR, for at sige det enkelt) ved en tilfældig model: dette problem, virkelig grundlæggende og væsentligt, udgør emnet for Georges Matheron Estimer et vælge . Med hensyn til berettigelsen af at anvende en metode, der utvivlsomt er vanskeligere at implementere end den primære model , er den empirisk: udviklingen af geostatistisk arbejde og værktøjer siden midten af 1950'erne har klart fastslået værdien af disse værktøjer. effektivitetsbetingelser og berettigede de metodologiske komplikationer, de introducerer.
Når en praktiserende læge nærmer sig en ny undersøgelse, har han et sæt numeriske værdier, der udgør en prøveudtagning af den primære model, det vil sige af en regionaliseret variabel. Hvis han ønsker at arbejde inden for rammerne af den indre geostatistik, skal han knytte denne VR til en tilfældig funktion, hvorpå de teoretiske værktøjer gør det muligt at etablere resultater, der drager fordel af al effektiviteten af tilfældige modeller. Denne operation kaldes "randomisering" eller mere sjældent sandsynlig nedsænkning.
Selvom det er mere almindeligt, synes ordet "randomisering" ikke passende, primært fordi det kan være forvirrende. Faktisk beskriver det undertiden handlingen med at tage tilfældige prøver fra et datasæt, og det er klart ikke, hvad det er, når vi går fra VR til AF.
I sin mest præcise forstand betyder randomisering af en tilfældig variabel afhængigt af en parameter, at vi giver denne parameter en tilfældig status: den randomiserede variabel bliver på en måde "dobbelt tilfældig" ... Dette synspunkt er, denne gang , transponeret til iboende geostatistik: det består i at overveje, at en given VR i virkeligheden er en (deterministisk) funktion indekseret af en bestemt parameter , derefter i at erstatte denne parameter med en tilfældig variabel i et sandsynligt rum . Så vi beslutter at stille - med noget hybride notationer:
og vi definerer AF associeret med VR ved forholdet:
.Valget, der er almindeligt i geostatistiske publikationer, ikke at medtage den anden variabel ( ) er ikke en simpel forenkling af notationen. Dette undgår at henlede opmærksomheden på en parameter, der ikke har nogen fysisk virkelighed, og som udøveren ikke har noget handlingsmiddel på. Vi skriver derfor normalt en FA , hvor tilfældigheden (i modellen) af denne funktion traditionelt kun er udpeget ved hjælp af et stort bogstav.
Ved at undersøge den metodologiske mekanisme, der passerer aux , ser vi, at det virkelig drejer sig om at kaste en allerede meget rig klasse af matematiske objekter (VR) ind i en uendeligt større helhed (FA): Udtrykket "sandsynlig nedsænkning", skønt sjældent brugt, synes derfor fornuftig og vil blive bevaret i resten af artiklen.
Endelig fører denne voksende abstraktion naturligvis til øgede risici for at overskride realismens tærskel, og geostatistikeren skal være særlig opmærksom. Men til gengæld vil han drage fordel af hele arsenalet af værktøjer og sætninger om sandsynlighedsteori og stokastiske processer; og hvis han til de mulige omkostninger ved transformationer begrænser sig til at manipulere FA'er med begrænset varians , vil han være i stand til at give sit rum (FA) til ankomsten en Hilbert-rumstruktur , som ved sætningen garanterer, at det er rigtigt. Hovedresultater (interpolering, estimering, filtrering osv.): Den teoretiske gevinst er enorm og retfærdiggør fuldt ud den strenge indsats, der skal gøres.
Animationen nedenfor minder allegorisk om de tre niveauer i en geostatistisk undersøgelse. Baggrundsbilledet repræsenterer et industrielt guldpaneringssted som en påmindelse om, at en undersøgelse af anvendt geostatistik har til formål at besvare konkrete spørgsmål med udfordringer ikke kun metodisk, men også teknisk og økonomisk.
Den første kolonne henviser til den fysiske virkelighed, til den verden, hvor problemet, der skal løses, er stillet. Indsatserne i en undersøgelse kan være betydelige: implicit er det i den foreslåede illustration et spørgsmål om at udnytte en mineralaflejring. Den ultimative sanktion i dette tilfælde vil være virksomhedens rentabilitet: en sanktion, der generelt er entydig, men som først ankommer i slutningen af arbejdet. Således er den mission, der er betroet geostatistikeren, i det væsentlige at foregribe, hvad der i sidste ende senere vil være en simpel observation - hvis i det mindste operationen virkelig gennemføres og afsluttes: det er derfor et spørgsmål om at gå længere end hvad dataene siger hic et nunc , som kan kun ske på bekostning af en intellektuel øvelse i modellering .
Den anden kolonne minder om, at det første niveau af modellering består i at betragte det virkelige som en funktion, som et matematisk væsen: det er introduktionen af begrebet regionaliseret variabel . Symbolsk er baggrunden for figuren delvist sløret her for at minde os om, at modelleringsøvelsen delvist tager os væk fra virkeligheden, både ved ikke at tage hensyn til al den reelle kompleksitet og ved samtidig at indføre i matematiske egenskaber som måske ikke har nogen modstykke i virkeligheden. Denne ramme for den primære model tillader allerede specifik behandling (statistik) og udgør genstand for transitiv geostatistik.
Overgangen til den tredje søjle udgør karakteristikken ved indre geostatistik: den består på basis af den eneste regionaliserede variabel, som vi har til rådighed, i at påberåbe sig en tilfældig funktion, hvor VR ville være en realisering blandt en uendelig andres. Dette er den grundlæggende proces med sandsynlig nedsænkning, som symbolsk betyder at erstatte med . Vi er her i et meget højere abstraktionsniveau, hvorfor baggrunden symbolsk næppe kan ses; dette er også grunden til, at risikoen for at foretage en teoretisk udvikling, der i realiteten ikke svarer til noget, øges betydeligt. Men på samme tid drager vi fordel af al den rigdom af sandsynlighedsværktøjer, der gør det muligt at formalisere det oprindelige problem i teoretiske vendinger og foreslå en løsning.
Undersøgelsen bør ikke stoppe der. Det er nu passende at udtrykke det teoretiske svar konkret. Det er derfor nødvendigt først at sikre, at dette svar ikke afhænger af nogen konventionel parameter og kun kan udtrykkes i regionale størrelser . Derefter, i udtrykket for den teoretiske løsning, er det nødvendigt at erstatte den tilfældige funktion med den regionaliserede variabel (erstatte med ): det er realiseringsfasen , som er i bunden af den operative rekonstruktion . Det tilvejebragte resultat er beregnet til at blive sammenlignet med virkeligheden.
For at afslutte fortolkningen af denne figur skal det bemærkes, at brugeren ikke har nogen grad af frihed i venstre kolonne, da virkeligheden pålægges alle uanset metodologiske valg og eventuelle subjektive præferencer; og omvendt, jo mere vi går videre i abstraktion, jo flere muligheder har vi for at tage vilkårlige og subjektive valg. Også hvis det sker, at de foreslåede resultater i slutningen af et arbejde viser sig at være uforenelige med kontrolforanstaltningerne, er det naturligvis på niveau med modellerne, at det er nødvendigt at foretage korrektioner. En ny cyklus skal derefter gennemføres: muligvis en ny primær model, bestemt en ny probabilistisk fordybelse, gentagelse af algoritmerne og genudførelse af den operative rekonstruktion; det vigtigste er at huske på, at i tilfælde af en konflikt mellem virkeligheden og modellen er det modellen, der skal tilpasse sig virkeligheden ...
som er en funktion punkt .
Det, vi ønsker at udtrykke ved at tale om "ikke-punktet VR" er, at hvad det er muligt effektivt at måle på det punkt er ikke pointen værdi , men snarere en værdi opnået ved at regulere ved en bestemt funktion vægtning ; enten i strenge notationer,
eller:
I det tilfælde, hvor vægtningen funktion konstruerer en gennemsnitlig (muligvis vægtet), det vil sige i det tilfælde, hvor variablerne og er af samme art, den funktion er dimensionsløs , og vi vil vælge den med en integreret lig med 1, så det og udtrykkes i de samme enheder. For eksempel, hvis reguleringen er det aritmetiske gennemsnit, der udføres over et bestemt glidende domæne , vil funktionen simpelthen være op til en multiplikativ faktor indikatorfunktionen af .
Men det kan ske, at reguleringen også beskriver en naturændring, i hvilket tilfælde funktionen udtrykkes med fysiske enheder. Således opnås tyngdefeltet på et punkt ved sammenfald af massefeltet i kraft af tyngdekraften : i dette tilfælde er funktionen en isotrop funktion i et tredimensionelt rum. I dette tilfælde er det en funktion, der aldrig annulleres, og hvis støtte (i matematisk forstand) er hele rummet .
Disse sidste to eksempler trækker en mulig sammenhæng mellem de to betydninger af ordet "støtte": endelig, hvad geostatistik kalder "understøttelse af VR" er i virkeligheden forbundet med den (matematiske) understøttelse af vægtningsfunktionen, der gjorde det muligt at passere fra lejlighedsvis VR , eksperimentelt utilgængelig, til den funktion, som - det - kan være genstand for virkelige målinger. Denne ambivalens af terminologi er bestemt beklagelig, men det er tvivlsomt, om det kan forårsage alvorlige fejl. Under alle omstændigheder skal det bemærkes, at vane har videreført denne ordforrådslicens fra det fransktalende geostatistiske samfund.
Dette er en liste, nødvendigvis ufuldstændig, begrænset til resuméværker (kurser eller manualer) og klassificeret i kronologisk rækkefølge af publikationer.
Forfatter | Titel | Redaktør | År. | |
---|---|---|---|---|
Georges matheron | Afhandling om anvendt geostatistik , bind 1 & 2 | (Fr) | Technip Publishing, Paris | 1962 |
Georges matheron | Afhandling om anvendt geostatistik , bind 3 | (Fr) | BRGM-udgaver, Paris | 1962 |
Georges matheron | Principper for geostatistik | (i) | Economic Geology vol. 58 | 1963 |
Georges matheron | Regionaliserede variabler og deres estimering | (Fr) | Masson, Paris | 1965 |
Jean Serra | Prøveudtagning og lokal estimering af minedriftovergangsfænomener | (Fr) | Ph.d.-afhandling, University of Nancy | 1967 |
Georges matheron | Osnovy prikladnoy geostatistiki | (ru) | Mir-udgaver, Moskva | 1968 |
Daniel F. Merriam | Geostatistik | (i) | Plenum Press, New York | 1970 |
Pierre Laffitte (red.) | Geologisk databehandling | (Fr) | Masson, Paris | 1972 |
Georges matheron | De iboende tilfældige funktioner og deres applikationer | (i) | Fremskridt i anvendt sandsynlighed vol. 5 | 1973 |
Michel David | Estimat for geostatistisk malmreserve | (i) | Elsevier Scientific Publishing Company, Amsterdam | 1977 |
André Journel og Charles Huijbregts | Minedrift Geostatistik | (i) | Academic Press Inc., London | 1978 |
Isobel clark | Praktisk geostatistik | (i) | Applied Science Publishers, London | 1979 |
Bertil Matérn | Rumlige variationer | (i) | Springer, Berlin | 1986 |
Georges matheron | Estimering og valg | (i) | Springer, Berlin | 1989 |
Georges matheron | Anslå og vælg | (Fr) | Les Cahiers du Centre of Mathematical Morphology n o 7, Ecole des Mines de Paris | 1978 |
Rudolf Dutter | Mathematische Methoden in der Technik, Bd.2: Geostatistik | (af) | BG Teubner Verlag, Stuttgart | 1985 |
Noel Cressie | Statistik for geodata | (i) | Wiley Interscience, New York | 1993 |
Jean-Paul Chiles & Pierre Delfiner | Geostatistik: modellering af rumlig usikkerhed | (i) | John Wiley & Sons, New York | 1999 |
Christian Lantuejoul | Geostatistisk simulering: modeller og algoritmer | (i) | Springer-Verlag, Berlin | 2002 |
Hans Wackernagel | Multivariate geostatistikker | (i) | Springer-Verlag, Berlin | 2003 |
Pierre Chauvet | Lineær geostatistik tjekliste | (Fr) | Miner ParisTech Les Presses, Paris | 2008 |
Se også procedurerne fra det internationale forum til minde om Michel David, Montreal, 1993: