I sandsynlighedsteori og statistik er medianen den værdi, der adskiller den nederste halvdel fra den øverste halvdel af et sæt ( prøve , population , sandsynlighedsfordeling ). Intuitivt er medianen således midtpunktet for helheden. Det er en central tendensindikator for serien. Vi kan bestemme en median for et sæt ikke-numeriske værdier, så længe vi kan vælge et kriterium for at bestille disse værdier.
For at bestemme en median af et sæt værdier er det tilstrækkeligt at ordne værdierne i en stigende liste og vælge den værdi, der er i midten af denne liste. For en ordnet liste over n elementer, hvor n er ulige, er værdien af elementet i position (n + 1) / 2 medianen. Hvis antallet n af elementerne er jævnt, er en hvilken som helst værdi mellem elementerne i positioner (n-1) / 2 og (n + 1) / 2 en median; i praksis, i tilfælde af en liste over tal, er det det aritmetiske gennemsnit af disse to centrale værdier, der oftest anvendes .
Den kompleksitet af algoritmen til beregning af medianen er derfor kompleksiteten af sorteringsalgoritme anvendes, nemlig O ( n log n ) i bedste .
Eksempler
For at bestemme en median af et sæt værdier er det tilstrækkeligt at beregne de stigende kumulative procentdele, og vi tager den første værdi af serien, hvis kumulative procentdel overstiger 50%.
Denne metode er mere praktisk, når du har et stort antal værdier.
Der er algoritmer med lineær kompleksitet (i O ( n )), derfor mere effektive. Disse er algoritmer, der generelt gør det muligt at bestemme k- th elementet i en liste over n elementer (se Selection algoritme ); k = n / 2 for medianen. Dette er tilpasninger af sorteringsalgoritmerne, men som er mere effektive, fordi vi ikke er interesseret i alle værdier. For eksempel kan vi bruge opdelings- og erobringsalgoritmen i kun O ( n ) -operationer; i tilfælde af algoritmen QuickSelect , skift hurtig sortering ( quicksort ), som generelt er i O ( n ), men i værste fald kan være i O ( n 2 ).
I praksis, hvis vi leder efter medianen for en liste over n heltal, og hvis vi er heldige at finde ud af, at den maksimale værdi m er mindre end n 2 (denne konstatering koster O ( n )), så tællesortering , implementering meget let og omkostningerne herved er, i dette tilfælde, O ( m ) operationer muliggør opnåelse medianen på mindre end O ( n 2 ) operationer. Denne sag gælder især for karakterer ud af 20 (uden decimaler) i en klasse på mere end 5 elever (5 i anden række er større end 20).
Når medianen bruges til at lokalisere værdier i beskrivende statistik, er der forskellige muligheder for at udtrykke variabiliteten: rækkevidde , interkvartilområde og absolut interval . Da medianen er den samme værdi som det andet kvartil , er dets beregning detaljeret i artiklen om kvartiler .
For alle reelle sandsynlighedsfordelinger opfylder medianen m ligestillingen:
dvs. med hensyn til fordelingsfunktion :
Så for en diffus sandsynlighedsfordeling (kontinuerlig fordelingsfunktion):
For alle symmetriske fordelinger er medianen lig med forventningen.
Medianen bruges hovedsageligt til skæv fordelinger, fordi den repræsenterer dem bedre end det aritmetiske gennemsnit. Overvej sættet {1, 2, 2, 2, 3, 9}. Medianen er 2, ligesom tilstanden, hvilket er et bedre mål for central tendens end det aritmetiske gennemsnit af 3.166….
Beregningen af medianen gøres ofte for at repræsentere forskellige fordelinger og er let at forstå såvel som at beregne. Det er også mere robust end gennemsnittet i nærvær af ekstreme værdier.
Medianen er også den centrale værdi, som minimerer middelværdien af de absolutte afvigelser. I serien {1, 2, 2, 2, 3, 9} givet tidligere, ville dette være (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 snarere end 1,944 fra gennemsnittet, som for minimerer de kvadratiske afvigelser. I sandsynlighedsteori minimeres værdien c, som minimerer
er medianen af sandsynlighedsfordelingen for den stokastiske variabel X .
For kontinuerlige sandsynlighedsfordelinger er forskellen mellem medianen og forventningen højst én standardafvigelse .