I statistik er en positionsindikator et reelt tal, der gør det muligt at lokalisere værdierne for en statistisk serie af en kvantitativ variabel . Det kan være en central tendensindikator eller en off-center værdi som maksimum eller minimum i serien.
Positionsindikatorer er oftest gennemsnit ( aritmetiske , geometriske , kvadratiske osv.) Eller kvantiler som median og kvartiler . De adskiller sig fra spredningsindikatorer, der beskriver variationen i værdierne i serien.
I praksis er valget af det ene eller det andet af de forskellige målinger af central tendens ofte indledende for enhver statistisk analyse. Det er ofte umuligt at manipulere eller repræsentere alle de hundreder eller endda tusinder af værdier, der observeres for at drage konklusioner. Det er derfor nødvendigt at "opsummere" de oplysninger, der dannes ved dette store antal målinger, til et lille antal tilstrækkeligt repræsentative værdier. I mange felter bruges det aritmetiske gennemsnit som et mål for central tendens, undertiden med standardafvigelsen til at vurdere spredningen på grund af for eksempel målefejl .
De positionelle parametre for en fordeling er de parametre, der påvirker den centrale tendens af fordelingsfunktionen . Det er for eksempel parameteren μ, der måler forventningen om en normalfordeling .
Den maksimale værdi er den største værdi taget af det statistiske tegn.
Minimumsværdien er den mindste værdi taget af det statistiske tegn.
Medianen har tendens til at opdele befolkningen i to populationer af samme størrelse. Hvis m er medianen, skal antallet af personer, hvis statistiske karakter er mindre end m , svare til antallet af personer, hvis statistiske karakter er større end m . Hvis denne definition stemmer godt overens med tilfældet med en kontinuerlig variabel, er den ikke tilpasset tilfældet med en diskret variabel, hvor en anden definition er givet. Hvis værdierne for det statistiske tegn alle er forskellige, opdeler medianen, som defineret i det diskrete tilfælde, populationen i to, men dette er ikke altid tilfældet, hvis visse værdier af den statistiske karakter tages mere end en gang.
Vi sorterer værdierne i stigende rækkefølge.
Vi bruger polygonen med stigende kumulative frekvenser og den tilsvarende tabel, og vi bestemmer grafisk eller ved lineær interpolation værdien M, for hvilken frekvensen af intervallet [værdi min, M] er lig med 50%.
I eksemplet udviklet i kontinuerlig elementær statistik er polygonen for de kumulative frekvenser som følger:
Ligningslinjen y = 50 skærer polygonen ved omtrent punktet for abscissa 21, hvilket giver et skøn over medianen: M ≈ 21.
Bemærk: Polygonen for stigende kumulative frekvenser og for faldende kumulative frekvenser skærer nøjagtigt på et punkt, hvis abscisse er medianen.
Ved tabellen over stigende kumulative frekvenserI det foregående eksempel er tabellen over stigende kumulative frekvenser:
x i | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
stigende kumulative frekvenser | 0 | 7 | 12.3 | 21.1 | 48.1 | 81,7 | 94.7 | 100 |
50% nås mellem 20 og 30 for en værdi M, der estimeres ved lineær interpolation.
Artiklerne Diskret elementær statistik og Kontinuerlig elementær statistik forklarer disse formler.
Tilfælde af den sorterede men ikke omgrupperede diskrete statistiske serierVi har derefter den sædvanlige formel for et gennemsnit
Tilfælde af den kombinerede diskrete statistiske serieVi har formlen på et vægtet gennemsnit
Kontinuerlig seriekasseVi har den sædvanlige formel for et vægtet gennemsnit af midler
Middelværdien er stabil ved affin transformation, det vil sige: hvis y i = ax i + b , hvis x er middelværdien af serien x derefter middelværdien af serien y er y = a x + b .
Denne egenskab er nyttig til skift af enheder: Hvis du kender en gennemsnitstemperatur i grader Fahrenheit, behøver du ikke konvertere alle værdier til grader Celsius for at beregne gennemsnittet i grader Celsius, bare konverter gennemsnittet.
Det er også interessant at begrænse størrelsen på tallene, at starte fra et estimeret gennemsnit og beregne gennemsnittet af d i = x i - M estim . Derefter x = M estim + d .
Underpopulation opdelingHvis populationen er opdelt i to underpopulationer P 1 og P 2 i størrelserne n 1 og n 2 , hvis middelværdien af den statistiske karakter for populationen P 1 er, og gennemsnittet for populationen P 2 er gennemsnittet for befolkning P er .
Følsomhed over for ekstreme værdierGennemsnittet er følsomt over for ekstreme eller outliers.
Eksempel : I et firma betales 9 ansatte € 2.000 hver måned. Chefen betaler sig selv 22.000 € månedligt.
Beregningen af den gennemsnitlige løn under disse betingelser fører til en ikke-repræsentativ værdi:
For at undgå denne form for fælde sker det, at vi bevidst afkorter befolkningen og fjerner 10% af de laveste værdier og 10% af de højeste værdier.
Den tilstand er værdien af den statistiske karakter, der vises oftest.
Bemærkninger | 5 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 | Total |
---|---|---|---|---|---|---|---|---|---|---|
Arbejdskraft | 1 | 1 | 2 | 4 | 3 | 2 | 1 | 1 | 1 | 16 |
Tilstanden er værd her 10. Fordelingen er kendt som unimodal.
Bemærkninger | 5 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 | Total |
---|---|---|---|---|---|---|---|---|---|---|
Arbejdskraft | 1 | 1 | 4 | 2 | 2 | 4 | 1 | 1 | 1 | 16 |
Denne serie kaldes bimodale serier, fordi vi ser to tilstande vises: 9 og 12.
I tilfælde af en kontinuerlig variabel kan vi høre om en modal klasse, der ville være den klasse med det største antal mennesker. Men vi skal være forsigtige med denne opfattelse, fordi jo større klassen er, desto større er dens størrelse uden at dette er væsentligt. Denne forestilling om modalklasse defineret af klassens størrelse giver kun mening, hvis klasserne har den samme amplitude. Hvis amplituderne er forskellige, skal du se på histogrammet for den klasse, der er knyttet til rektanglet med den største højde.
Løn | mellem 0 (inklusive) og 8 ekskluderet | mellem 8 (inkluderet) og 12 ekskluderet | mellem 12 (inkluderet) og 16 ekskluderet | mellem 16 (inklusive) og 20 ekskluderet | mellem 20 (inklusive) og 30 ekskluderet | mellem 30 (inkluderet) og 40 ekskluderet | mellem 40 (inkluderet) og 60 ekskluderet | Total |
---|---|---|---|---|---|---|---|---|
Arbejdskraft | 306 | 231 | 385 | 1180 | 1468 | 568 | 232 | 4370 |
Observation af denne tabel antyder, at modalklassen ville være klassen [20; 30 [. Men en observation af histogrammet korrigerer denne misforståelse ved at tage højde for, at nogle klasser er større: Modalklassen er klasse [16; 20 [.
De kvartiler er de tre værdier, der deler befolkningen i 4 sub-populationer af tilsvarende størrelse.
Værdierne er arrangeret i stigende rækkefølge.
Vi bestemmer det andet kvartil, der svarer til medianen. Så søger vi midt i den første halvdel af befolkningen, der svarer til en st kvartil. Vi leder efter medianen for anden halvdel af befolkningen, der svarer til den tredje kvartil.
Hvis populationen er af størrelse n , kan vi skelne mellem 4 tilfælde.
En anden beregningsmetode findes på den dedikerede artikel: kvartil .
Hvis n = 4 sEksempel : serie med 12 noter: 4, 5, 7 , 8 , 8, 9 , 10 , 10, 10 , 11 , 13, 16
Q1 = 7,5; Q2 = 9,5; Q3 = 10,5Hvis n = 4 p +1Eksempel : serie med 13 noter 4, 5, 7, 8 , 8, 9, 10 , 10, 10, 11 , 12, 13, 16
Q1 = 8; Q2 = 10; Q3 = 11Hvis n = 4 p +2Eksempel : serie med 14 noter 4, 5, 7, 8 , 8, 9, 9 , 10 , 10, 10, 11 , 12,13, 16
Q1 = 8; Q2 = 9,5; Q3 = 11Hvis n = 4 p +3Eksempel : serie med 15 noter 4, 5, 7, 8 , 8, 9, 9, 10 , 10, 10, 11, 11 , 12, 13, 16
Q1 = 8; Q2 = 10; Q3 = 11Vi arrangerer værdierne i serien x i stigende rækkefølge, og vi finder den mindste x min .
Vi kan bemærke, at denne tilnærmelse gør definitionen asymmetrisk, at den anden kvartil ikke længere nødvendigvis svarer til medianen, og at de opnåede værdier adskiller sig fra de i den tidligere definition. Dens fordel er at gøre søgningen efter (omtrentlige) kvartiler lettere uden at skulle skelne mellem 4 tilfælde. Forskellene opnået ved den ene eller den anden af metoderne viser sig at være ubetydelige og berettiger brugen af denne tilnærmelse.
Kvartilerne beregnes som medianen grafisk takket være polygonen med stigende kumulative frekvenser og ved lineær interpolering takket være den tilsvarende tabel.
Ved polygonen med stigende kumulative frekvenserLinjerne i ligning y = 25 , y = 50 , y = 75 skærer polygonen ved punkter, hvis abscisser er lig med cirka 17, 21, 28.
Ved tabellen over stigende kumulative frekvenserTabellen over stigende kumulative frekvenser er:
x i | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
stigende kumulative frekvenser | 0 | 7 | 12.3 | 21.1 | 48.1 | 81,7 | 94.7 | 100 |
25% nås i intervallet [16; 20], dvs. for en værdi af Q1 opnået ved lineær interpolation
Den anden kvartil svarer til den tidligere estimerede median
.75% nås i intervallet [20; 30], dvs. for en værdi af Q3 opnået ved lineær interpolation
De deciler er de 9 værdier, der deler befolkningen i 10 subpopulationer af samme størrelse.
Vi vil arbejde her ved approksimation: den n th tiendedel D n er den første værdi af den karakter, således at intervallet [ x min , D n ] samler mindst n tiendedele af befolkningen.
Eksempel serie 30 noter 9 th decil = 27 e værdi.
4, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10,10, 10, 10, 11, 11, 11, 12, 12, 12, 13, 13, 14 , 14, 15, 16
Således D 9 = 14 .
Vi beregner deciler som median og kvartiler grafisk takket være polygonen med stigende kumulative frekvenser og ved lineær interpolering takket være den tilsvarende tabel.
Brug af polygonen med stigende kumulative frekvenserLinjerne i ligning y = 10 , y = 20 , ..., y = 90 skærer polygonen ved punkter, hvis abscissas er omtrent værd D 1 = 10,5 , D 2 = 15,5 , ..., D 9 = 36,5
Brug af tabellen med stigende kumulative frekvenserTabellen over stigende kumulative frekvenser er:
x i | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
stigende kumulative frekvenser | 0 | 7 | 12.3 | 21.1 | 48.1 | 81,7 | 94.7 | 100 |
10% nås i intervallet [8; 12], dvs. til en værdi af D 1 fås ved lineær interpolation
.20% nås i intervallet [12; 16], dvs. til en værdi af D 2 fås ved lineær interpolation
.90% nås i intervallet [30; 40], dvs. til en værdi af D 9 fås ved lineær interpolation
.