Positionsindikator

I statistik er en positionsindikator et reelt tal, der gør det muligt at lokalisere værdierne for en statistisk serie af en kvantitativ variabel . Det kan være en central tendensindikator eller en off-center værdi som maksimum eller minimum i serien.

Positionsindikatorer er oftest gennemsnit ( aritmetiske , geometriske , kvadratiske osv.) Eller kvantiler som median og kvartiler . De adskiller sig fra spredningsindikatorer, der beskriver variationen i værdierne i serien.

I praksis er valget af det ene eller det andet af de forskellige målinger af central tendens ofte indledende for enhver statistisk analyse. Det er ofte umuligt at manipulere eller repræsentere alle de hundreder eller endda tusinder af værdier, der observeres for at drage konklusioner. Det er derfor nødvendigt at "opsummere" de oplysninger, der dannes ved dette store antal målinger, til et lille antal tilstrækkeligt repræsentative værdier. I mange felter bruges det aritmetiske gennemsnit som et mål for central tendens, undertiden med standardafvigelsen til at vurdere spredningen på grund af for eksempel målefejl .

De positionelle parametre for en fordeling er de parametre, der påvirker den centrale tendens af fordelingsfunktionen . Det er for eksempel parameteren μ, der måler forventningen om en normalfordeling .

Maksimal værdi og minimumsværdi

Den maksimale værdi er den største værdi taget af det statistiske tegn.

Minimumsværdien er den mindste værdi taget af det statistiske tegn.

Median

Medianen har tendens til at opdele befolkningen i to populationer af samme størrelse. Hvis m er medianen, skal antallet af personer, hvis statistiske karakter er mindre end m , svare til antallet af personer, hvis statistiske karakter er større end m . Hvis denne definition stemmer godt overens med tilfældet med en kontinuerlig variabel, er den ikke tilpasset tilfældet med en diskret variabel, hvor en anden definition er givet. Hvis værdierne for det statistiske tegn alle er forskellige, opdeler medianen, som defineret i det diskrete tilfælde, populationen i to, men dette er ikke altid tilfældet, hvis visse værdier af den statistiske karakter tages mere end en gang.

Tilfælde af den diskrete variabel

Vi sorterer værdierne i stigende rækkefølge.

Hvis populationen har n individer, og hvis n er ulige, er n = 2 p +1, vil medianen være den ( p + 1) th- værdi af det statistiske tegn.

Eksempel : serie med 13 noter 4, 5, 7, 8, 8, 9, 10 , 10, 10, 11,12, 13, 16. Median = M = 10

Hvis populationen har n individer, og hvis n er lige så er n = 2 p , vil medianen være gennemsnittet mellem p e og ( p + 1) th- værdien af det statistiske tegn.

Eksempel: serie med 12 noter: 4, 5, 7, 8, 8, 9 , 10 , 10, 10, 11, 13, 16. Median = M = 9,5

Tilfælde af den kontinuerlige variabel

Vi bruger polygonen med stigende kumulative frekvenser og den tilsvarende tabel, og vi bestemmer grafisk eller ved lineær interpolation værdien M, for hvilken frekvensen af intervallet [værdi min, M] er lig med 50%.

Bestemmelse af medianen

Ved polygonen med stigende kumulative frekvenser

I eksemplet udviklet i kontinuerlig elementær statistik er polygonen for de kumulative frekvenser som følger:

Ligningslinjen y = 50 skærer polygonen ved omtrent punktet for abscissa 21, hvilket giver et skøn over medianen: M ≈ 21.

Bemærk: Polygonen for stigende kumulative frekvenser og for faldende kumulative frekvenser skærer nøjagtigt på et punkt, hvis abscisse er medianen.

Ved tabellen over stigende kumulative frekvenser

I det foregående eksempel er tabellen over stigende kumulative frekvenser:

$x i$	0	8	12	16	20	30	40	60
stigende kumulative frekvenser	0	7	12.3	21.1	48.1	81,7	94.7	100

50% nås mellem 20 og 30 for en værdi M, der estimeres ved lineær interpolation. ${\ displaystyle 20+ (30-20) {\ dfrac {50-48.1} {81.7-48.1}} = 20.56}$

Gennemsnit

Værdier

Artiklerne Diskret elementær statistik og Kontinuerlig elementær statistik forklarer disse formler.

Tilfælde af den sorterede men ikke omgrupperede diskrete statistiske serier

Vi har derefter den sædvanlige formel for et gennemsnit

\ overline {x} = {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {{n}} x_ {i}

Tilfælde af den kombinerede diskrete statistiske serie

Vi har formlen på et vægtet gennemsnit

\ overline {x} = {\ dfrac {\ sum _ {{i = 1}} ^ {{N}} n_ {i} x_ {i}} {\ sum _ {{i = 1}} ^ {N} n_ {i}}} = \ sum _ {{i = 1}} ^ {N} f_ {i} x_ {i}

Kontinuerlig seriekasse

Vi har den sædvanlige formel for et vægtet gennemsnit af midler

* \ overline {x} = {\ dfrac {\ sum _ {{i = 1}} ^ {{N}} n_ {i} m_ {i}} {\ sum _ {{i = 1}} ^ {N } n_ {i}}} = \ sum _ {{i = 1}} ^ {N} f_ {i} m_ {i}

Ejendomme

Stabilitet ved affin transformation

Middelværdien er stabil ved affin transformation, det vil sige: hvis $y i = ax i + b$ , hvis $x$ er middelværdien af serien $x$ derefter middelværdien af serien $y$ er $y = a x + b$ .

Denne egenskab er nyttig til skift af enheder: Hvis du kender en gennemsnitstemperatur i grader Fahrenheit, behøver du ikke konvertere alle værdier til grader Celsius for at beregne gennemsnittet i grader Celsius, bare konverter gennemsnittet.

Det er også interessant at begrænse størrelsen på tallene, at starte fra et estimeret gennemsnit og beregne gennemsnittet af $d i = x i - M estim$ . Derefter $x = M estim + d$ .

Underpopulation opdeling

Hvis populationen er opdelt i to underpopulationer $P 1$ og $P 2$ i størrelserne $n 1$ og $n 2$ , hvis middelværdien af den statistiske karakter for populationen $P 1$ er, og gennemsnittet for populationen $P$ $2$ er gennemsnittet for befolkning $P$ er . $\ overline {x_ {1}}$ $\ overline {x_ {2}}$ $\ overline {x} = {\ dfrac {n_ {1} \ overline {x_ {1}} + n_ {2} \ overline {x_ {2}}} {n_ {1} + n_ {2}}}$

Følsomhed over for ekstreme værdier

Gennemsnittet er følsomt over for ekstreme eller outliers.

Eksempel : I et firma betales 9 ansatte € 2.000 hver måned. Chefen betaler sig selv 22.000 € månedligt.

Beregningen af den gennemsnitlige løn under disse betingelser fører til en ikke-repræsentativ værdi:

{\ displaystyle {\ overline {x}} = {\ dfrac {9 \ gange 2000 + 22000} {10}} = 4000.}

For at undgå denne form for fælde sker det, at vi bevidst afkorter befolkningen og fjerner 10% af de laveste værdier og 10% af de højeste værdier.

Mode

Den tilstand er værdien af den statistiske karakter, der vises oftest.

Grad 1 studerende

Bemærkninger	5	8	9	10	11	12	13	14	16	Total
Arbejdskraft	1	1	2	4	3	2	1	1	1	16

Tilstanden er værd her 10. Fordelingen er kendt som unimodal.

Grad 2 studerende

Bemærkninger	5	8	9	10	11	12	13	14	16	Total
Arbejdskraft	1	1	4	2	2	4	1	1	1	16

Denne serie kaldes bimodale serier, fordi vi ser to tilstande vises: 9 og 12.

I tilfælde af en kontinuerlig variabel kan vi høre om en modal klasse, der ville være den klasse med det største antal mennesker. Men vi skal være forsigtige med denne opfattelse, fordi jo større klassen er, desto større er dens størrelse uden at dette er væsentligt. Denne forestilling om modalklasse defineret af klassens størrelse giver kun mening, hvis klasserne har den samme amplitude. Hvis amplituderne er forskellige, skal du se på histogrammet for den klasse, der er knyttet til rektanglet med den største højde.

Fordeling af årlig indkomst i k € i en befolkning på 4.370 mennesker.

Løn	mellem 0 (inklusive) og 8 ekskluderet	mellem 8 (inkluderet) og 12 ekskluderet	mellem 12 (inkluderet) og 16 ekskluderet	mellem 16 (inklusive) og 20 ekskluderet	mellem 20 (inklusive) og 30 ekskluderet	mellem 30 (inkluderet) og 40 ekskluderet	mellem 40 (inkluderet) og 60 ekskluderet	Total
Arbejdskraft	306	231	385	1180	1468	568	232	4370

Observation af denne tabel antyder, at modalklassen ville være klassen [20; 30 [. Men en observation af histogrammet korrigerer denne misforståelse ved at tage højde for, at nogle klasser er større: Modalklassen er klasse [16; 20 [.

Kvartiler

De kvartiler er de tre værdier, der deler befolkningen i 4 sub-populationer af tilsvarende størrelse.

Tilfælde af den diskrete variabel

Værdierne er arrangeret i stigende rækkefølge.

Vi bestemmer det andet kvartil, der svarer til medianen. Så søger vi midt i den første halvdel af befolkningen, der svarer til en st kvartil. Vi leder efter medianen for anden halvdel af befolkningen, der svarer til den tredje kvartil.

Hvis populationen er af størrelse $n$ , kan vi skelne mellem 4 tilfælde.

En anden beregningsmetode findes på den dedikerede artikel: kvartil .

Hvis n = 4 s

Q1 svarer til gennemsnittet mellem p th og ( p + 1) th- værdien.
Q2 svarer til gennemsnittet mellem (2 p ) th- værdien og (2 p +1) th- værdien.
Q3 er gennemsnittet mellem (3 p ) th- værdien og (3 p +1) th- værdien.

Eksempel : serie med 12 noter: 4, 5, 7 , 8 , 8, 9 , 10 , 10, 10 , 11 , 13, 16

Q1 = 7,5; Q2 = 9,5; Q3 = 10,5Hvis n = 4 p +1

Q1 svarer til ( p +1) th- værdien.
Q2 svarer til (2 p + 1) th- værdien.
Q3 svarer til (3 p +1) th- værdi.

Eksempel : serie med 13 noter 4, 5, 7, 8 , 8, 9, 10 , 10, 10, 11 , 12, 13, 16

Q1 = 8; Q2 = 10; Q3 = 11Hvis n = 4 p +2

Q1 svarer til ( p +1) th- værdien.
Q2 er gennemsnittet mellem (2 p + 1) th- værdien og (2 p +2) th- værdien.
Q3 svarer til (3 p +2) th- værdien.

Eksempel : serie med 14 noter 4, 5, 7, 8 , 8, 9, 9 , 10 , 10, 10, 11 , 12,13, 16

Q1 = 8; Q2 = 9,5; Q3 = 11Hvis n = 4 p +3

Q1 svarer til ( p +1) th- værdien.
Q2 svarer til (2 p +2) th- værdien.
Q3 svarer til (3 p +3) th- værdi.

Eksempel : serie med 15 noter 4, 5, 7, 8 , 8, 9, 9, 10 , 10, 10, 11, 11 , 12, 13, 16

Q1 = 8; Q2 = 10; Q3 = 11

Nyttig tilnærmelse til en diskret variabel

Vi arrangerer værdierne i serien $x$ i stigende rækkefølge, og vi finder den mindste $x min$ .

Den første kvartil Q1 er den første værdi, for hvilken intervallet $[ x min , Q1]$ inkluderer mindst 25% af befolkningen.
Den anden kvartil Q2 er den første værdi, for hvilken intervallet $[ x min , Q2]$ inkluderer mindst 50% af befolkningen.
Den tredje kvartil Q3 er den første værdi, for hvilken intervallet $[ x min , Q3]$ inkluderer mindst 75% af befolkningen.

Vi kan bemærke, at denne tilnærmelse gør definitionen asymmetrisk, at den anden kvartil ikke længere nødvendigvis svarer til medianen, og at de opnåede værdier adskiller sig fra de i den tidligere definition. Dens fordel er at gøre søgningen efter (omtrentlige) kvartiler lettere uden at skulle skelne mellem 4 tilfælde. Forskellene opnået ved den ene eller den anden af metoderne viser sig at være ubetydelige og berettiger brugen af denne tilnærmelse.

Tilfælde af den kontinuerlige variabel

Kvartilerne beregnes som medianen grafisk takket være polygonen med stigende kumulative frekvenser og ved lineær interpolering takket være den tilsvarende tabel.

Ved polygonen med stigende kumulative frekvenser

Linjerne i ligning $y = 25$ , $y = 50$ , $y = 75$ skærer polygonen ved punkter, hvis abscisser er lig med cirka 17, 21, 28.

Ved tabellen over stigende kumulative frekvenser

Tabellen over stigende kumulative frekvenser er:

$x i$	0	8	12	16	20	30	40	60
stigende kumulative frekvenser	0	7	12.3	21.1	48.1	81,7	94.7	100

25% nås i intervallet [16; 20], dvs. for en værdi af Q1 opnået ved lineær interpolation

{\ displaystyle \ mathrm {Q} 1 = 16 + (20-16) {\ dfrac {25-21.1} {48.1-21.1}} = 16.57.}

Den anden kvartil svarer til den tidligere estimerede median

{\ displaystyle \ mathrm {Q} 2 = M = 120,56}

75% nås i intervallet [20; 30], dvs. for en værdi af Q3 opnået ved lineær interpolation

{\ displaystyle \ mathrm {Q} 3 = 20 + (30-20) {\ dfrac {75-48.1} {81.7-48.1}} = 28.00.}

Deciler

De deciler er de 9 værdier, der deler befolkningen i 10 subpopulationer af samme størrelse.

Tilfælde af den diskrete variabel

Vi vil arbejde her ved approksimation: den n th tiendedel $D n$ er den første værdi af den karakter, således at intervallet $[ x min , D n ]$ samler mindst $n$ tiendedele af befolkningen.

Eksempel serie 30 noter 9 th decil = 27 e værdi.

4, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10,10, 10, 10, 11, 11, 11, 12, 12, 12, 13, 13, 14 , 14, 15, 16

Således $D 9 = 14$ .

Tilfælde af den kontinuerlige variabel

Vi beregner deciler som median og kvartiler grafisk takket være polygonen med stigende kumulative frekvenser og ved lineær interpolering takket være den tilsvarende tabel.

Brug af polygonen med stigende kumulative frekvenser

Linjerne i ligning $y = 10$ , $y = 20$ , ..., $y = 90$ skærer polygonen ved punkter, hvis abscissas er omtrent værd $D 1 = 10,5$ , $D 2 = 15,5$ , ..., $D 9 = 36,5$

Brug af tabellen med stigende kumulative frekvenser

Tabellen over stigende kumulative frekvenser er:

$x i$	0	8	12	16	20	30	40	60
stigende kumulative frekvenser	0	7	12.3	21.1	48.1	81,7	94.7	100

10% nås i intervallet [8; 12], dvs. til en værdi af $D 1$ fås ved lineær interpolation

D_ {1} = 8 + 4 {\ dfrac {10-7} {12.3-7}} = 10.26

20% nås i intervallet [12; 16], dvs. til en værdi af $D 2$ fås ved lineær interpolation

D_ {2} = 12 + 4 {\ dfrac {20-12.3} {21.1-12.3}} = 15.50

90% nås i intervallet [30; 40], dvs. til en værdi af $D 9$ fås ved lineær interpolation

D_ {9} = 30 + 10 {\ dfrac {90-81.7} {94.7-81.7}} = 36.38

Positionsindikator

Maksimal værdi og minimumsværdi

Median

Tilfælde af den diskrete variabel

Tilfælde af den kontinuerlige variabel

Bestemmelse af medianen

Gennemsnit

Værdier

Ejendomme

Mode

Kvartiler

Tilfælde af den diskrete variabel

Nyttig tilnærmelse til en diskret variabel

Tilfælde af den kontinuerlige variabel

Deciler

Tilfælde af den diskrete variabel

Tilfælde af den kontinuerlige variabel

Se også