Maksimum reguleret
I matematik er et reguleret maksimum ( glat maksimum ) af en indekseret familie x 1 , ..., x n af tal en jævn tilnærmelse af den maksimale funktion max ( x 1 , ..., x n ) , det vil sige en familie, der er parametreret af funktionerne m α ( x 1 , ..., x n ), således at funktionen m α er regelmæssig for enhver reel værdi af α og har tendens til den maksimale funktion for α → ∞ . Begrebet reguleret minimum kan defineres på en lignende måde. I flere tilfælde kan en familie bruges til at tilnærme de to funktioner, maksimum for meget store positive værdier, minimum mod negativ uendelighed:
ma→maks til a→∞, ma→min til a→-∞.{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ til - \ infty.}![{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ til - \ infty.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6e654a2c05fd20588b6658e8240d3b1123fc88c3)
Udtrykket kan bruges til enhver reguleringsfunktion, der opfører sig på samme måde som den maksimale funktion uden at blive parametreret.
Eksempler
For store værdier af parameteren α > 0 er funktionen S α defineret nedenfor, undertiden kaldet “ α -softmax”, en jævn og differentierbar tilnærmelse af den maksimale funktion. For negative værdier for parameteren stor i absolut værdi nærmer den sig minimumet. Funktionen α -softmax er defineret af:
Sa(x1,...,xikke)=∑jeg=1ikkexjegeaxjeg∑jeg=1ikkeeaxjeg{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}![{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7a7414e010643db4882ff5a413e2e024e5380d49)
S α har følgende egenskaber:
- Sa⟶a→+∞maks{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}
![{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}](https://wikimedia.org/api/rest_v1/media/math/render/svg/dbacaaf52ef6c11e970a0926a36465ef802aba80)
-
S 0 returnerer det aritmetiske gennemsnit
- Sa⟶a→-∞min{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to - \ infty} {\ longrightarrow}} \ min}
![{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to - \ infty} {\ longrightarrow}} \ min}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4956c0378794be7d478fcca2fa6e75cfebbee6c)
Gradienten af S α er knyttet til softmax-funktionen og er lig med
∇xjegSa(x1,...,xikke)=eaxjeg∑j=1ikkeeaxj[1+a(xjeg-Sa(x1,...,xikke))].{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}![{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/372c48e5fe4de24ae5c1a21bbb967278994c45ec)
Dette gør softmax-funktionen interessant til optimeringsteknikker ved hjælp af gradientnedstigning .
Hölder standarder
En form for reguleret maksimum kan baseres på et generaliseret gennemsnit . For eksempel for positive værdier x 1 , ..., x n kan vi bruge et gennemsnit af rækkefølge α > 1 , det vil sige
Sa(x1,...,xikke)=(1ikke∑j=1ikkexja)1a.{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}![{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/18300bc4557535c37bbdf886ee9db6491ded14b3)
LogSumExp
Et andet regulært maksimum er kendt under navnet "LogSumExp":
LSE(x1,...,xikke)=ln(eksp(x1)+...+eksp(xikke)){\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}![{\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d5229360a6111437a1b87923b3b0084c1f735dfa)
Funktionen kan normaliseres, hvis x i alle er positive, hvilket fører til en funktion defineret på [0, + ∞ [ n til [0, + ∞ [ :
g(x1,...,xikke)=ln(eksp(x1)+...+eksp(xikke)-(ikke-1)){\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}![{\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/324a090c93ab11015e4ea03b7fba18eee5fbe961)
Udtrykket ( n - 1) er en korrektionskoefficient for at tage højde for, at exp (0) = 1 , hvilket sikrer, at vi har g (0, ..., 0) = 0, hvis alle x i er nul.
LogSumExp-funktionen kan indstilles for at undgå udjævning af artefakter. Vi kalder denne form " α -quasimax", defineret af:
Qa(x1,...,xikke)=1aLSE(ax1,...,axikke)=1aln(eksp(ax1)+...+eksp(axikke)){\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { ikke}))}![{\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { ikke}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4cb249d4824a213c54400300550464d9a9c02d0d)
Anvendes i numeriske metoder
Glatte maxima er af interesse for ekstremsøgninger på diskrete datasæt eller optimeringsalgoritmer til gradientnedstigning.
Se også
Referencer
-
(en) M. Lange, D. Zühlke, O. Holz og T. Villmann, " Applications of l p -orms and their smooth approximations for gradient based learning vector quantization " , Proc. ESANN ,2014, s. 271-276 ( læs online )
-
(i) Gabor Takacs ' maksimale Smooth baserede algoritmer for klassificering, regression, og collaborative filtering " , Acta Technica Jaurinensis , vol. 3, n o 1,2010, s. 27-63
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">