Automatisk tekstgenerering

Automatisk tekstgenerering
Underklasse af Algoritme , automatisk naturlig sprogbehandling

Den automatiske tekstgenerering (GAT) er en underdisciplin af beregningslingvistik, der sigter mod at udtrykke tekstform, syntaktisk og semantisk korrekt, formel repræsentation af indhold.

Ud over de mange eksisterende eller potentielle applikationer - for eksempel til automatisk fremstilling af meteorologiske bulletiner eller automatiserede rapporter - tilbyder den også en ramme til at undersøge sproglige teorier og især dens produktionsmekanismer.

Historisk

Shannon og Turings arbejde

Historisk set er de to første forskere, der studerer spørgsmålet om tekstproduktion ved hjælp af informationssystemer, Claude Shannon efterfulgt af Alan Turing .

Alan Turing reflekterer generelt over denne mulighed i sit forslag til AI-testen med titlen The Imitation Game. Denne test, som Turing beskrev i 1950 i sin kommende artikel om forholdet mellem intelligens og computermekanik, består i at skabe en menneskelig dialog med en computer og det samme menneske med et andet menneske. Ifølge muring, hvis manden, der starter de to samtaler, ikke er i stand til at skelne en menneskelig højttaler fra en computer, kan softwaren anses for at have bestået testen. Denne test, som vi kan se i dag i anledning af Loebnerprisen , består i vid udstrækning i at generere syntaktisk og semantisk korrekte sætninger.

Claude Shannon, i sin artikel om ”Matematisk Theory of Communication”, grundlaget for Information Theory , fra 1948 forestiller muligheden for automatisk at generere tekst ved hjælp Markovian sandsynligheder for overgang fra et ord til et andet.. Han byggede den første teoretiske model af en tekstgenerator. Ved hjælp af en håndberegnet overgangstabel udarbejder han forskellige sætninger, der ligner engelsk . Et af eksemplerne fra Shannon, af rækkefølge to, det vil sige baseret på sandsynligheden for overgang for to på hinanden følgende ord, er følgende:

"HOVEDET OG I FRONTALTILFALDET PÅ EN ENGELSK SKRIVER, AT KARAKTERET FOR DETTE PUNKT DERFOR ER EN ANDEN METODE TIL BREVENE, AT TIDEN PÅ DEN, DER ALDRIG FORTALT PROBLEMET FOR EN Uventet" .

Shannon vil ikke fortsætte sin forskning på generation, hans hovedmål er at matematisk formalisere transmission af information, men den metode, han beskriver, er i dag kernen i mange metoder, der anvendes til automatisk sprogbehandling , for eksempel i (i) sandsynlige sprogmodeller . Sprogmodeller er også involveret i visse arkitekturer af såkaldte statistiske tekstgeneratorer .

Men de første anvendte systemer i GAT stammer fra 1960'erne . De blev udviklet til at eksperimentere i en teoretisk ramme den teori, der blev præsenteret af Chomsky i syntaktiske strukturer.

Systemer inspireret af Chomskyan-lingvistik

Victor Yngve  (i) i 1961, meget kort efter offentliggørelsen af Structures Syntaxiques, søger med tidens rudimentære systemer at eksperimentere med produktion af sætninger i henhold til Chomskys propositioner. Han beskriver algoritmen i hans system, næsten udelukkende baseret på generative grammatikker, i sin artikel med titlen Random Generation of English Sentences. Yngve kommer op mod fænomenerne med sproglig kompleksitet, der har forstyrret forskning i sprogets mekanisering siden slutningen af ​​1940'erne. Han angiver også i sin artikel "at de originale transformationsgrammatikker er blevet opgivet, fordi de ikke kan mekaniseres med et endeligt apparat, på grund af vanskeligheden ved at forbinde en sætningsstruktur med resultatet af en transformation ” .

Andre værker som Matthews i 1962 eller Friedman i 1969 svarer til Yngve. Meget præget af tidens behov og retningslinjerne for universitetsfinansiering i Nordamerika er de en del af perspektivet ved at indsætte tekstgeneratoren som en del af et automatisk oversættelsessystem. Ofte søger dette arbejde ikke rigtig at producere semantisk korrekt tekst, men fokuserer mere på systemers evne til at producere syntaktisk korrekte sætninger. Ligesom Friedmans system, skrevet i Fortran og kører på IBM 360/67 , som genererer syntaktiske strukturer tilfældigt.

Principper

Ansøgninger

Teoretisk ramme

Symbolsk tilgang

De teoretiske formalismer, der stammer fra symbolske metoder, er hovedsageligt følgende:

Statistisk tilgang

Andre tilgange

Arkitektur

GAT er imod forståelsen af ​​det naturlige sprog, da sidstnævnte starter fra teksten for at forstå betydningen, mens målet med GAT er at omdanne mening til tekst. Dette oversættes til et større udvalg af forskellige input , afhængigt af anvendelsesområdet (mens tekst altid forbliver tekst). I modsætning til forståelse behøver generation heller ikke at bekymre sig (eller i mindre grad) om tvetydighed, underspecifikation eller dårligt dannet input, som er de største bekymringer i forståelsen.

Det største problem med GAT er valg . Denne pinlige valg opstår på flere niveauer:

Disse valg er langt fra åbenlyse. Overvej følgende to sætninger:

  1. Du kan kun blive indtil 4.
  2. Du er nødt til at rejse kl. 4.

Vi kan groft oversættes. Du kan kun blive indtil 16 timer, og du skal være væk i 16 timer . Disse to sætninger deler et tydeligt semantisk synonym, men de adskiller sig i en kommunikativ nuance. Sætningen (1) understreger ophold , (2) i orlov . Det leksikale valg vil blive taget i henhold til sammenhængen: i dette tilfælde f.eks. Hvis man ønsker at fokusere på den igangværende aktivitet eller rettere på den kommende aktivitet.

Derfor involverer GAT en masse forudgående viden:

Den optimale formulering skal tage højde for en række faktorer, såsom grammatikalitet, manglende tvetydighed , konsistens, den ønskede retoriske effekt. Men også sociale, diskursive og pragmatiske begrænsninger. De funktionelle sprogteorier bruges i generation, da de forsøger at integrere sådanne faktorer.

Figuren overfor viser et eksempel på arkitektur for GAT. De to hovedkomponenter i denne arkitektur er Discourse Planner og Surface Realizer . Planlæggeren vælger indholdet fra videnbasen og strukturerer det efter det kommunikative mål. Derefter genererer Surface Producer sætningerne i henhold til de leksikale og syntaktiske begrænsninger, der implementeres for den, efter planen specificeret af Planlæggeren.

Noter og referencer

  1. På engelsk "  Natural language generation  " eller NLG.
  2. Bateman & Zock (2003).
  3. (i) Alan Turing , "  Computing maskiner og intelligenc  " , Mind ,1950.
  4. (i) Claude Shannon , "  En Matematisk Theory of Communication  " , ACM SIGMOBILE, Mobile Computing og kommunikation anmeldelse , vol.  5, n o  1,1948
  5. (in) Victor Yngve  (in) , "  Tilfældig generation af engelske sætninger  " , Proceedings of the International Congress on Machine Translation and Applied Language Analysis ,September 1961.
  6. (i) G. Mattæus, "  Analyse af syntese af punktummer i naturlige sprog.  » , Proceedings International Congress on Machine Translation and Applied Language Analysis ,1962.
  7. (i) Joyce Friedman, "  Direkte Random generation af engelsk sætning.  " , Kommunikation fra ACM ,1969.
  8. Se Bateman (2002) for et bredt overblik over den nyeste teknologi.
  9. Elhadad (1992).
  10. Bateman (1997).
  11. Vander Linden (2000)
  12. Tilpasset fra Bateman & Zock (2003) og Vander Linden (2000).
  13. Eksempel lånt fra McDonald (1991).
  14. Antal, der naturligvis varierer afhængigt af det behandlede felt og den krævede præcision.
  15. Tilpasset fra Bateman & Zock (2003).

Se også

Bibliografi

Relaterede artikler

eksterne links