Geometrisk gennemsnit
I matematik er det geometriske gennemsnit en type middel .
Elementær definition
Det geometriske gennemsnit af to positive tal a og b er det positive tal c således at:
påvs.=vs.b{\ displaystyle {\ frac {a} {c}} = {\ frac {c} {b}}}.
Geometrisk fortolkning
Geometrisk er dette tal c siden af et kvadrat, hvis areal er det samme som for rektanglet af siderne a og b , da i dette tilfælde:
vs.2=påb.{\ displaystyle c ^ {2} = ab.}Vi kan direkte beregne det geometriske gennemsnit af to tal ved at tage kvadratroden af det forrige udtryk:
vs.=påb=(påb)1/2.{\ displaystyle c = {\ sqrt {ab}} = (ab) ^ {1/2}.}
Generalisering
Diskret sag
I denne sidste form ser vi, at logaritmen (i enhver base) omdanner udtrykket til et aritmetisk gennemsnit: (forudsat at a og b ikke er nul, logaritmen ikke defineret i 0).
logvs.=logpå+logb2{\ displaystyle \ log c = {\ frac {\ log a + \ log b} {2}}}
Derfor generaliseringen: det geometriske gennemsnit af en ikke-nul positiv kvantitativ statistisk serie defineres således, at dens logaritme er det aritmetiske gennemsnit af logaritmerne for værdierne i serien.
Dens formulering kan gøres som følger:
logx¯=logx1+logx2+...+logxikkeikke=1ikke∑jeg=1ikkelogxjeg.{\ displaystyle \ log {\ bar {x}} = {\ frac {\ log x_ {1} + \ log x_ {2} + \ ldots + \ log x_ {n}} {n}} = {1 \ over n} \ sum _ {i = 1} ^ {n} \ log x_ {i}.}Vi kan udlede:
x¯=x1×x2×...×xikkeikke=∏jeg=1ikkexjegikke.{\ displaystyle {\ bar {x}} = {\ sqrt [{n}] {x_ {1} \ times x_ {2} \ times \ ldots \ times x_ {n}}} = {\ sqrt [{n} ] {\ prod _ {i = 1} ^ {n} {x_ {i}}}}.}For en statistisk serie, hvis samlede antal forekomster er uendelig eller ukendt, men hvis antal mulige ikke-nul positive værdier er endelig, og deres respektive frekvenser i serien er kendt, bliver den matematiske formulering:
logx¯=f1logx1+f2logx2+...+fikkelogxikkef1+f2+...+fikke=∑jeg=1ikkefjeglogxjeg∑jeg=1ikkefjeg,påvevs.∑jeg=1ikkefjeg=1.{\ displaystyle \ log {\ bar {x}} = {\ frac {f_ {1} \ log x_ {1} + f_ {2} \ log x_ {2} + \ ldots + f_ {n} \ log x_ { n}} {f_ {1} + f_ {2} + \ ldots + f_ {n}}} = {\ frac {\ sum _ {i = 1} ^ {n} {f_ {i} \ log x_ {i }}} {\ sum _ {i = 1} ^ {n} {f_ {i}}}}, \ quad \ mathrm {med} \ quad \ sum _ {i = 1} ^ {n} {f_ {i }} = 1.}Vi udleder (ved hjælp af for eksempel den naturlige logaritme ):
x¯=eksp(f1lnx1+f2lnx2+...+fikkelnxikkef1+f2+...+fikke)=eksp(∑jeg=1ikkefjeglnxjeg∑jeg=1ikkefjeg),{\ displaystyle {\ bar {x}} = \ exp \ left ({\ frac {f_ {1} \ ln x_ {1} + f_ {2} \ ln x_ {2} + \ ldots + f_ {n} \ ln x_ {n}} {f_ {1} + f_ {2} + \ ldots + f_ {n}}} til højre) = \ exp \ left ({\ frac {\ sum _ {i = 1} ^ {n } f_ {i} \ ln x_ {i}} {\ sum _ {i = 1} ^ {n} {f_ {i}}}} til højre),}hvorfra :
x¯=x1f1×x2f2×...×xikkefikke=∏jeg=1ikkexjegfjeg.{\ displaystyle {\ bar {x}} = {x_ {1}} ^ {f_ {1}} \ times {x_ {2}} ^ {f_ {2}} \ times \ ldots \ times {x_ {n} } ^ {f_ {n}} = \ prod _ {i = 1} ^ {n} {{x_ {i}} ^ {f_ {i}}}.}Kontinuerlig sag
Den geometriske middelværdi af en fordeling f af en kontinuerlig variabel med værdien i et endeligt skalar interval [ x 0 , x 1 ] er generaliseringen på grænsen af det foregående diskrete statistiske formel:
logf¯x0x1=∫x0x1logxf(x) dx,{\ displaystyle \ log {{\ bar {f}} _ {x_ {0}} ^ {x_ {1}}} = \ int _ {x_ {0}} ^ {x_ {1}} {\ log xf ( x) ~ \ mathrm {d} x},}hvorfra :
f¯x0x1=eksp(∫x0x1lnxf(x) dx)påvevs.∫x0x1f(x) dx=1.{\ displaystyle {\ bar {f}} _ {x_ {0}} ^ {x_ {1}} = \ exp \ left (\ int _ {x_ {0}} ^ {x_ {1}} \ ln xf ( x) ~ \ mathrm {d} x \ right) \ quad \ mathrm {with} \ quad \ int _ {x_ {0}} ^ {x_ {1}} f (x) ~ \ mathrm {d} x = 1 .}Dens dimension er ikke en frekvens, men er dens kontinuerlige variabel.
Hvis fordelingen f er defineret på alle de reelle værdier af dens kontinuerlige variabel, er det geometriske gennemsnit af fordelingen:
f¯=eksp(∫-∞+∞lnxf(x) dx)påvevs.∫-∞+∞f(x) dx=1.{\ displaystyle {\ bar {f}} = \ exp \ left (\ int _ {- \ infty} ^ {+ \ infty} \ ln xf (x) ~ \ mathrm {d} x \ right) \ quad \ mathrm {med} \ quad \ int _ {- \ infty} ^ {+ \ infty} f (x) ~ \ mathrm {d} x = 1.}
Interesse
For statistikere er det geometriske gennemsnit ( antilogaritme af gennemsnittet af logaritmerne for hver af observationer) mindre følsomt end det aritmetiske gennemsnit for de højeste værdier i en dataserie. Det giver derfor et andet og bedre skøn over den centrale tendens for dataene i tilfælde af en langhalefordeling i den øverste ende af kurven (distributionstype hyppig i sundheds- eller miljøforanstaltninger fx giftig i kroppen, blodet eller miljøet , hvor visse personer eller grupper, der er sårbare eller udsat for bestemte tilfælde, er mere berørt)
Se også
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">