Natur | Emnemodel |
---|---|
Forkortelse | (in) LDA |
Navngivet med henvisning til | Dirichlets lov |
Inden for naturlig sprogbehandling er tildelingen af latent dirichlet (engelsk latent dirichlet allocation ) eller LDA en generativ model sandsynlighed for at forklare sæt observationer ved hjælp af ikke-observerede grupper dem -samme defineret af data ligheder.
For eksempel, hvis observationer ( ) er de ord, der er samlet i et sæt tekstdokumenter ( ), antager LDA-modellen, at hvert dokument ( ) er en blanding ( ) af et lille antal emner eller emner , og at genereringen af hver forekomst af et ord ( ) kan tilskrives (sandsynlighed) til et af temaerne ( ) i dokumentet. LDA-modellen er et eksempel på en " emnemodel ". Det blev først præsenteret som en grafisk model til påvisning af temaer i et dokument af David Blei , Andrew Ng og Michael Jordan i 2002. LDA har mange applikationer, især inden for datamining og automatisk sprogbehandling .
Vi indstiller et antal K temaer, og vi prøver at lære de temaer, der er repræsenteret i hvert dokument, og de ord, der er knyttet til disse temaer.
Hvert ord i hvert dokument tildeles et tema i henhold til en Dirichlet-fordeling over et sæt K-temaer.
, med og er en Dirichlet-distribution med en hul symmetrisk parameter ( )
Dette genererer en første " emnemodel ": temaer til stede i dokumenterne og ord, der definerer temaerne. Denne emnemodel er meget usandsynlig, fordi den genereres tilfældigt.
Vi søger at forbedre emnemodellen, der genereres tilfældigt under initialiseringen. Til dette tager vi i hvert dokument hvert ord og opdaterer det tema, som det er knyttet til. Dette nye tema er det, der har størst sandsynlighed for at generere det i dette dokument. Vi antager derfor, at alle temaerne er korrekte, bortset fra det pågældende ord.
Mere præcist: for hvert ord ( ) i hvert dokument ( ) beregner vi to størrelser for hvert emne ( ):
Vi vælger derefter det nye tema t med sandsynligheden . Dette svarer til sandsynligheden for, at emnet genererer ordet i dokumentet .
Ved at gentage de foregående trin et stort antal gange stabiliserer opgaverne sig. Vi opnår blandingen af temaer, der findes i hvert dokument, ved at tælle hver repræsentation af et tema (tildelt dokumentets ord). De ord, der er knyttet til hvert emne, opnås ved at tælle de ord, der er knyttet til det, i korpuset.