Kolmogorov-Smirnov test
Kolmogorov-Smirnov test
I statistik er Kolmogorov-Smirnov- testen en hypotesetest, der bruges til at bestemme, om en prøve følger en given lov kendt af dens kontinuerlige fordelingsfunktion , eller om to prøver følger den samme lov.
Princip
Denne test er baseret på egenskaberne ved empiriske fordelingsfunktioner . Lad n iid variable defineret på et sandsynlighedsrum med værdier i , med fordelingsfunktionen F . Den empiriske fordelingsfunktion af prøven er defineret af:
x1,...,xikke{\ displaystyle X_ {1}, \ ldots, X_ {n}} (Ω,PÅ,P){\ displaystyle (\ Omega, {\ mathcal {A}}, \ mathbb {P})}R{\ displaystyle \ mathbb {R}} Fikke{\ displaystyle F_ {n}}x1,...,xikke{\ displaystyle X_ {1}, \ ldots, X_ {n}}
∀x∈R,∀ω∈Ω,Fikke(x,ω)=ikkeombre d′e´le´meikkets≤xdpåikkes l′e´vs.hpåikketjeglloikkeikke=1ikke∑jeg=1ikke1xjeg(ω)≤x{\ displaystyle \ forall x \ in \ mathbb {R}, \ forall \ omega \ in \ Omega, F_ {n} (x, \ omega) = {\ frac {\ mathrm {antal ~ af {\ acute {e} } {\ acute {e}} ments} \, \ leq x \, \ mathrm {i ~ {\ acute {e}} eksemplet}} {n}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} (\ omega) \ leq x}}
hvilket er indikatorfunktionen for begivenheden Kl .
1PÅ{\ displaystyle \ mathbf {1} _ {A}}
Bemærk den tilfældige variabel . Vi har følgende konvergens:
Fikke(x,.){\ displaystyle F_ {n} (x,.)}ω↦Fikke(x,ω){\ displaystyle \ omega \ mapsto F_ {n} (x, \ omega)}
P[supx|Fikke(x,.)-F(x)|>vs.ikke]→ikke→∞a(vs.)=2∑r=1+∞(-1)r-1eksp(-2vs.2r2){\ displaystyle \ mathbb {P} \ left [\ sup _ {x} | F_ {n} (x ,.) - F (x) |> {\ frac {c} {\ sqrt {n}}} \ højre ] {\ xrightarrow [{n \ to \ infty}] {}} \ alpha (c) = 2 \ sum _ {r = 1} ^ {+ \ infty} (- 1) ^ {r-1} \ exp ( -2c ^ {2} r ^ {2})}for enhver konstant c > 0 . Udtrykket α ( c ) er lig med 0,05 for c = 1,36 .
Bemærk, at retten til grænsen ikke afhænger af F . Dette følger af, at konvergerer i fordeling til en Brownsk bro ændret tid ved den inverse F -1 af F . Serien α ( c ) udledes af egenskaberne ved denne sidste proces.
ikke(Fikke(x,.)-F(x)){\ displaystyle {\ sqrt {n}} (F_ {n} (x ,.) - F (x))}
Det er således let at foreslå en hypotesetest for at afgøre, om en prøve faktisk kommer fra en given lov, eller om to prøver har samme lov, når deres fordelingsfunktioner er kontinuerlige.
Vi kan også overveje og .
maksx(Fikke(x,.)-F(x)){\ displaystyle \ max _ {x} (F_ {n} (x ,.) - F (x))}maksx(F(x,.)-Fikke(x)){\ displaystyle \ max _ {x} (F (x ,.) - F_ {n} (x))}
Kolmogorov-Smirnov-testen bruges for eksempel til at teste kvaliteten af en tilfældig talgenerator .
Implementering
-
ks.testmed R .
-
scipy.stats.kstestmed Python for at afgøre, om en prøve følger en given lov
-
scipy.stats.ks_2samp med Python for at afgøre, om to prøver følger den samme distributionslov
-
ksmirnovmed Stata
Se også
Referencer
-
(en) Galen R. Shorack og Jon A. Wellner , empiriske processer med anvendelser til statistik , Philadelphia, Society for Industrial & Applied Mathematics,4. september 2009, 998 s. ( ISBN 978-0-89871-684-9 og 0-89871-684-5 , LCCN 2009025143 , læs online ).
-
(en) David Williams, Vejer oddsen: et kursus i sandsynlighed og statistik , Cambridge University Press, 2001, 548 s. ( ISBN 0-521-80356-X ) .
Noter og referencer
-
(i) Donald E. Knuth , The Art of Computer Programming , Vol. 2, 3 e ed., Addison-Wesley Professional , 784 s. ( ISBN 0-201-89684-2 ) , s. 48–55.
eksterne links