Median (statistik)

I sandsynlighedsteori og statistik er medianen den værdi, der adskiller den nederste halvdel fra den øverste halvdel af et sæt ( prøve , population , sandsynlighedsfordeling ). Intuitivt er medianen således midtpunktet for helheden. Det er en central tendensindikator for serien. Vi kan bestemme en median for et sæt ikke-numeriske værdier, så længe vi kan vælge et kriterium for at bestille disse værdier.

Beregningsmetode

Generel tilgang

For at bestemme en median af et sæt værdier er det tilstrækkeligt at ordne værdierne i en stigende liste og vælge den værdi, der er i midten af denne liste. For en ordnet liste over n elementer, hvor n er ulige, er værdien af elementet i position (n + 1) / 2 medianen. Hvis antallet n af elementerne er jævnt, er en hvilken som helst værdi mellem elementerne i positioner (n-1) / 2 og (n + 1) / 2 en median; i praksis, i tilfælde af en liste over tal, er det det aritmetiske gennemsnit af disse to centrale værdier, der oftest anvendes .

Den kompleksitet af algoritmen til beregning af medianen er derfor kompleksiteten af sorteringsalgoritme anvendes, nemlig O ( n log n ) i bedste .

Eksempler

Sæt med 7 heltal : {12; 5; 6; 89; 5; 2390; 1}. Efter sortering serien er 1, 5, 5, 6, 12, 89, 2390. Medianen er det 4 th element i serie, således 6: fire værdier i mængden mindre end eller lig med 6, og fire større end eller lig med 6.
Sæt med 6 heltal: {12; 5; 6; 89; 5; 1}. Efter sortering serien er 1, 5, 5, 6, 12, 89. Enhver værdi mellem 3 rd og 4 th bestemmelser i denne serie, derfor mellem 5 og 6, kan vælges som median. Tre elementer er mindre end eller lig med 5.6, og tre er større end det, så 5.6 er en median, men det er 5.141, 5.9 eller 5.5. Denne sidste værdi tages generelt som medianen, da det er det aritmetiske gennemsnit af de to centrale elementer 5 og 6.
Antag 21 personer i et værelse. Hver tager pengene fra lommen og lægger dem på et bord: 20 mennesker lægger 5 euro ned, og de sidste lægger 10.000 euro. Medianen er det centrale element, det ellevte, i den bestilte liste 5, 5, 5, ..., 5, 10.000. Det er derfor 5: elleve mennesker hver havde mindst 5 euro og elleve holdt højst 5 euro. Vi bemærker, at hvis den rigeste person ikke havde deltaget, ville medianen have været den samme (5 €), men gennemsnittet ville have ændret sig radikalt (5 € i stedet for 480,95 € ).
En udtrykkelig undersøgelse af 50 Wikipedia-brugere afslører, at 12 af de adspurgte siger, at de er meget tilfredse, 7 meget utilfredse, 20 noget tilfredse, og de andre siger, at de er lidt utilfredse. Dette sæt af svar kan sorteres ved at øge tilfredsheden, og vi får en liste med halvtreds emner i denne rækkefølge: 7 meget utilfredse, 11 noget utilfredse, 20 noget tilfredse, 12 meget tilfredse. De to centrale elementer, 25 th og 26 th , har den samme værdi: ”snarere tilfreds”. Denne værdi er derfor medianværdien af alle svarene.

Anden tilgang

For at bestemme en median af et sæt værdier er det tilstrækkeligt at beregne de stigende kumulative procentdele, og vi tager den første værdi af serien, hvis kumulative procentdel overstiger 50%.

Denne metode er mere praktisk, når du har et stort antal værdier.

Effektivitet af algoritmer

Der er algoritmer med lineær kompleksitet (i O ( n )), derfor mere effektive. Disse er algoritmer, der generelt gør det muligt at bestemme k- th elementet i en liste over n elementer (se Selection algoritme ); k = n / 2 for medianen. Dette er tilpasninger af sorteringsalgoritmerne, men som er mere effektive, fordi vi ikke er interesseret i alle værdier. For eksempel kan vi bruge opdelings- og erobringsalgoritmen i kun O ( n ) -operationer; i tilfælde af algoritmen QuickSelect , skift hurtig sortering ( quicksort ), som generelt er i O ( n ), men i værste fald kan være i O ( n 2 ).

I praksis, hvis vi leder efter medianen for en liste over n heltal, og hvis vi er heldige at finde ud af, at den maksimale værdi m er mindre end n 2 (denne konstatering koster O ( n )), så tællesortering , implementering meget let og omkostningerne herved er, i dette tilfælde, O ( m ) operationer muliggør opnåelse medianen på mindre end O ( n 2 ) operationer. Denne sag gælder især for karakterer ud af 20 (uden decimaler) i en klasse på mere end 5 elever (5 i anden række er større end 20).

Statistisk dispersionsmåling

Når medianen bruges til at lokalisere værdier i beskrivende statistik, er der forskellige muligheder for at udtrykke variabiliteten: rækkevidde , interkvartilområde og absolut interval . Da medianen er den samme værdi som det andet kvartil , er dets beregning detaljeret i artiklen om kvartiler .

Medianer i sandsynlighedsfordelinger

For alle reelle sandsynlighedsfordelinger opfylder medianen m ligestillingen:

{\ displaystyle \ operatorname {P} (X \ leq m) \ geq {\ frac {1} {2}} {\ text {et}} \ operatorname {P} (X \ geq m) \ geq {\ frac { 1} {2}} \, \!}

dvs. med hensyn til fordelingsfunktion :

F_ {X} (m) = 1- \ lim _ {{x \ til m ^ {-}}} F_ {X} (x).

Så for en diffus sandsynlighedsfordeling (kontinuerlig fordelingsfunktion):

F_ {X} (m) = {\ frac {1} {2}}.

Medianer af nogle fordelinger

For alle symmetriske fordelinger er medianen lig med forventningen.

Medianen for den normale fordeling af forventning μ og varians σ 2 er μ. For denne fordeling er forventning = median = tilstand .
Medianen for den kontinuerlige ensartede fordeling i intervallet [ a , b ] er ( a + b ) / 2, hvilket også er forventningen .
Medianen af Cauchys lov med positionskriteriet x 0 og skalaparameteren y er x 0 , positionskriteriet.
Medianen af den eksponentielle lov med skaleringsfaktoren λ er divisionen af den naturlige logaritme på 2 med skalafaktoren, det vil sige (ln 2) / λ.
Medianen af Weibull-fordelingen med formfaktoren k og skaleringsfaktoren λ er λ (log 2) 1 / k .

Medianer i beskrivende statistik

Medianen bruges hovedsageligt til skæv fordelinger, fordi den repræsenterer dem bedre end det aritmetiske gennemsnit. Overvej sættet {1, 2, 2, 2, 3, 9}. Medianen er 2, ligesom tilstanden, hvilket er et bedre mål for central tendens end det aritmetiske gennemsnit af 3.166….

Beregningen af medianen gøres ofte for at repræsentere forskellige fordelinger og er let at forstå såvel som at beregne. Det er også mere robust end gennemsnittet i nærvær af ekstreme værdier.

Teoretiske egenskaber

Optimal ejendom

Medianen er også den centrale værdi, som minimerer middelværdien af de absolutte afvigelser. I serien {1, 2, 2, 2, 3, 9} givet tidligere, ville dette være (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 snarere end 1,944 fra gennemsnittet, som for minimerer de kvadratiske afvigelser. I sandsynlighedsteori minimeres værdien c, som minimerer

E (\ venstre | Xc \ højre |) \,

er medianen af sandsynlighedsfordelingen for den stokastiske variabel X .

Ulighed, der involverer midler og medianer

For kontinuerlige sandsynlighedsfordelinger er forskellen mellem medianen og forventningen højst én standardafvigelse .

Noter og referencer

"Beregning af medianen" , Canada .
Fabrice Mazerolle, " Median " ,2012(adgang til 13. februar 2012 ) .
[ (da) Selektion (deterministisk og randomiseret): at finde medianen i lineær tid ]