Median (statistik)

I sandsynlighedsteori og statistik er medianen den værdi, der adskiller den nederste halvdel fra den øverste halvdel af et sæt ( prøve , population , sandsynlighedsfordeling ). Intuitivt er medianen således midtpunktet for helheden. Det er en central tendensindikator for serien. Vi kan bestemme en median for et sæt ikke-numeriske værdier, så længe vi kan vælge et kriterium for at bestille disse værdier.

Beregningsmetode

Generel tilgang

For at bestemme en median af et sæt værdier er det tilstrækkeligt at ordne værdierne i en stigende liste og vælge den værdi, der er i midten af ​​denne liste. For en ordnet liste over n elementer, hvor n er ulige, er værdien af ​​elementet i position (n + 1) / 2 medianen. Hvis antallet n af elementerne er jævnt, er en hvilken som helst værdi mellem elementerne i positioner (n-1) / 2 og (n + 1) / 2 en median; i praksis, i tilfælde af en liste over tal, er det det aritmetiske gennemsnit af disse to centrale værdier, der oftest anvendes .

Den kompleksitet af algoritmen til beregning af medianen er derfor kompleksiteten af sorteringsalgoritme anvendes, nemlig O ( n log n ) i bedste .

Eksempler

Anden tilgang

For at bestemme en median af et sæt værdier er det tilstrækkeligt at beregne de stigende kumulative procentdele, og vi tager den første værdi af serien, hvis kumulative procentdel overstiger 50%.

Denne metode er mere praktisk, når du har et stort antal værdier.

Effektivitet af algoritmer

Der er algoritmer med lineær kompleksitet (i O ( n )), derfor mere effektive. Disse er algoritmer, der generelt gør det muligt at bestemme k- th elementet i en liste over n elementer (se Selection algoritme ); k = n / 2 for medianen. Dette er tilpasninger af sorteringsalgoritmerne, men som er mere effektive, fordi vi ikke er interesseret i alle værdier. For eksempel kan vi bruge opdelings- og erobringsalgoritmen i kun O ( n ) -operationer; i tilfælde af algoritmen QuickSelect , skift hurtig sortering ( quicksort ), som generelt er i O ( n ), men i værste fald kan være i O ( n 2 ).

I praksis, hvis vi leder efter medianen for en liste over n heltal, og hvis vi er heldige at finde ud af, at den maksimale værdi m er mindre end n 2 (denne konstatering koster O ( n )), så tællesortering , implementering meget let og omkostningerne herved er, i dette tilfælde, O ( m ) operationer muliggør opnåelse medianen på mindre end O ( n 2 ) operationer. Denne sag gælder især for karakterer ud af 20 (uden decimaler) i en klasse på mere end 5 elever (5 i anden række er større end 20).

Statistisk dispersionsmåling

Når medianen bruges til at lokalisere værdier i beskrivende statistik, er der forskellige muligheder for at udtrykke variabiliteten: rækkevidde , interkvartilområde og absolut interval . Da medianen er den samme værdi som det andet kvartil , er dets beregning detaljeret i artiklen om kvartiler .

Medianer i sandsynlighedsfordelinger

For alle reelle sandsynlighedsfordelinger opfylder medianen m ligestillingen:

dvs. med hensyn til fordelingsfunktion  :

Så for en diffus sandsynlighedsfordeling (kontinuerlig fordelingsfunktion):

Medianer af nogle fordelinger

For alle symmetriske fordelinger er medianen lig med forventningen.

Medianer i beskrivende statistik

Medianen bruges hovedsageligt til skæv fordelinger, fordi den repræsenterer dem bedre end det aritmetiske gennemsnit. Overvej sættet {1, 2, 2, 2, 3, 9}. Medianen er 2, ligesom tilstanden, hvilket er et bedre mål for central tendens end det aritmetiske gennemsnit af 3.166….

Beregningen af ​​medianen gøres ofte for at repræsentere forskellige fordelinger og er let at forstå såvel som at beregne. Det er også mere robust end gennemsnittet i nærvær af ekstreme værdier.

Teoretiske egenskaber

Optimal ejendom

Medianen er også den centrale værdi, som minimerer middelværdien af ​​de absolutte afvigelser. I serien {1, 2, 2, 2, 3, 9} givet tidligere, ville dette være (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 snarere end 1,944 fra gennemsnittet, som for minimerer de kvadratiske afvigelser. I sandsynlighedsteori minimeres værdien c, som minimerer

er medianen af sandsynlighedsfordelingen for den stokastiske variabel X .

Ulighed, der involverer midler og medianer

For kontinuerlige sandsynlighedsfordelinger er forskellen mellem medianen og forventningen højst én standardafvigelse .

Noter og referencer

  1. "Beregning af medianen" , Canada .
  2. Fabrice Mazerolle, "  Median  " ,2012(adgang til 13. februar 2012 ) .
  3. [ (da)  Selektion (deterministisk og randomiseret): at finde medianen i lineær tid ]

Se også

Relaterede artikler

eksterne links