Maksimum reguleret

I matematik er et reguleret maksimum ( glat maksimum ) af en indekseret familie $x 1 , ..., x n$ af tal en jævn tilnærmelse af den maksimale funktion $max ( x 1 , ..., x n )$ , det vil sige en familie, der er parametreret af funktionerne $m α ( x 1 , ..., x n ),$ således at funktionen $m α$ er regelmæssig for enhver reel værdi af $α$ og har tendens til den maksimale funktion for $α \to \infty$ . Begrebet reguleret minimum kan defineres på en lignende måde. I flere tilfælde kan en familie bruges til at tilnærme de to funktioner, maksimum for meget store positive værdier, minimum mod negativ uendelighed:

{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ til - \ infty.}

Udtrykket kan bruges til enhver reguleringsfunktion, der opfører sig på samme måde som den maksimale funktion uden at blive parametreret.

Eksempler

For store værdier af parameteren $α > 0$ er funktionen $S α$ defineret nedenfor, undertiden kaldet “ $α$ -softmax”, en jævn og differentierbar tilnærmelse af den maksimale funktion. For negative værdier for parameteren stor i absolut værdi nærmer den sig minimumet. Funktionen $α$ -softmax er defineret af:

{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}

$S α$ har følgende egenskaber:

${\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}$
$S 0$ returnerer det aritmetiske gennemsnit
${\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to - \ infty} {\ longrightarrow}} \ min}$

Gradienten af $S α$ er knyttet til softmax-funktionen og er lig med

{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}

Dette gør softmax-funktionen interessant til optimeringsteknikker ved hjælp af gradientnedstigning .

Hölder standarder

En form for reguleret maksimum kan baseres på et generaliseret gennemsnit . For eksempel for positive værdier $x 1 , ..., x n$ kan vi bruge et gennemsnit af rækkefølge $α > 1$ , det vil sige

{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}

LogSumExp

Et andet regulært maksimum er kendt under navnet "LogSumExp":

{\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}

Funktionen kan normaliseres, hvis $x i$ alle er positive, hvilket fører til en funktion defineret på $[0, + \infty [ n$ til $[0, + \infty [$ :

{\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}

Udtrykket $( n - 1)$ er en korrektionskoefficient for at tage højde for, at $exp (0) = 1$ , hvilket sikrer, at vi har $g (0, ..., 0) = 0,$ hvis alle $x i$ er nul.

LogSumExp-funktionen kan indstilles for at undgå udjævning af artefakter. Vi kalder denne form " $α$ -quasimax", defineret af:

{\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { ikke}))}

Anvendes i numeriske metoder

Glatte maxima er af interesse for ekstremsøgninger på diskrete datasæt eller optimeringsalgoritmer til gradientnedstigning.

Se også

Referencer

(fr) Denne artikel er helt eller delvist hentet fra den engelske Wikipedia- artikel med titlen " Glat maksimum " ( se listen over forfattere ) .

(en) M. Lange, D. Zühlke, O. Holz og T. Villmann, " Applications of l p -orms and their smooth approximations for gradient based learning vector quantization " , Proc. ESANN ,2014, s. 271-276 ( læs online )
(i) Gabor Takacs ' maksimale Smooth baserede algoritmer for klassificering, regression, og collaborative filtering " , Acta Technica Jaurinensis , vol. 3, n o 1,2010, s. 27-63