Automatisk sprogbehandling

Automatisk naturlig sprogbehandling

Underklasse af	Kunstig intelligens , datalogi , computinglingvistik , industri , akademisk disciplin
Objekter	Lemmatisering Grammatisk mærkning syntaks analyse sætning grænse flertydig ( da ) rootization Leksikalsk terminologiekstraktion semantik ( da ) maskinoversættelse opkaldt enhed anerkendelse automatisk generation tekst Optical Character Recognition spørgsmål-svar-systemer tekstmæssige entailment ( da ) forholdet udvinding ( da ) udtalelse Mining tekst segmentering ( da ) leksikalske flertydig Automatisk resumé tekst coreference tale analyse Automatisk tale genkendelse tale segmentering ( da ) talesyntese Word indlejring decompounding ( d )

Underklasse af

Kunstig intelligens , datalogi , computinglingvistik , industri , akademisk disciplin

Objekter

Lemmatisering
Grammatisk mærkning
syntaks analyse
sætning grænse flertydig ( da )
rootization Leksikalsk
terminologiekstraktion
semantik ( da )
maskinoversættelse
opkaldt enhed anerkendelse
automatisk generation tekst
Optical Character Recognition
spørgsmål-svar-systemer
tekstmæssige entailment ( da )
forholdet udvinding ( da )
udtalelse Mining
tekst segmentering ( da )
leksikalske flertydig
Automatisk resumé tekst
coreference
tale analyse
Automatisk tale genkendelse
tale segmentering ( da )
talesyntese
Word indlejring
decompounding ( d )

Den naturlige sprogbehandling (Rep. NLP ) eller automatisk behandling af naturligt sprog eller sprogbehandling (Rep. TAL ) er et tværfagligt felt, der involverer sprog , computeren og kunstig intelligens , som har til formål at skabe naturlige sprogbehandlingsværktøjer til forskellige applikationer. Det bør ikke forveksles med computinglingvistik , der sigter mod at forstå sprog ved hjælp af computerværktøjer.

TALN kom ud af forskningslaboratorier for gradvist at blive implementeret i computerapplikationer, der kræver integration af menneskeligt sprog i maskinen. Så NLP kaldes undertiden sproglig teknik . I Frankrig har Natural Language Processing sin tidsskrift, Automatic Language Processing , udgivet af Association for Automatic Language Processing (ATALA).

Historie

1950-60'erne

Det første arbejde med naturlig sprogbehandling begyndte i 1950'erne, hovedsageligt i USA, hvor den politiske sammenhæng, knyttet til den kolde krig , var gunstig for udviklingen af temaet maskinoversættelse .

De første computerapplikationer var knyttet til automatisk behandling af samtaler. I 1950 præsenterede Alan Turing i sin grundlæggende artikel om kunstig intelligens, " Computing machines and intelligence ", en evalueringsmetode, som senere ville blive kaldt " Turing test " eller "Turing kriterium". Denne test måler graden af intelligens af en maskine, baseret på evnen i et samtaleprogram til at efterligne et menneske: i en udveksling af skriftlige meddelelser skal et menneske afgøre, om hans samtalepartner er en maskine eller ej. Det anvendte grundlag er imidlertid skrøbeligt til at evaluere kunstig intelligens, fordi indtrykket af en enkelt bruger afhænger af for mange faktorer relateret til det omgivende miljø, der som regel kan etableres.

I 1954 involverede Georgetown-IBM-eksperimentet , der blev udført i fællesskab af Georgetown University og IBM- firmaet , den fuldautomatiske oversættelse til engelsk af mere end tres romaniserede russiske sætninger vedrørende områderne politik, lov, matematik og videnskab. Forfatterne hævder, at maskinoversættelse inden for tre til fem år ikke længere vil være et problem. Det ser dog ud til, at udtalelserne på russisk blev valgt med omhu, og at mange af de operationer, der blev udført til demonstrationen, var tilpasset bestemte ord og sætninger. Derudover er der ingen relationel eller syntaktisk analyse for at identificere sætningernes struktur. Den anvendte metode er en i det væsentlige leksikografisk metode baseret på en ordbog, hvor et givet ord er knyttet til specifikke regler og procedurer.

De begreber, der blev introduceret af Turing, tillod Joseph Weizenbaum at udvikle, fra 1964 til 1966, den første konversationsautomat, der bedrog et menneske med hensyn til hans natur. Simuleringen af en Rogerian- psykoterapeut , Automaton ved navn ELIZA , skønt han næsten ikke bruger information om menneskelig tænkning eller følelser, undertiden formår at skabe en interaktion, der overraskende ligner den menneskelige interaktion. Så når "patienten" overstiger vidensbasens svage kapacitet, kan ELIZA give et generisk svar, såsom "Hvorfor siger du, at du har hovedpine? »Som svar på« Jeg har hovedpine ».

I slutningen af 1960'erne udviklede Terry Winograd , en MIT-forsker, et naturligt sprogprogram kaldet SHRDLU (udtalt "chreudeul"), der giver brugeren mulighed for at tale med en computer for at styre en "verden af bygningskuber" ( en blokverden), der vises på en af de første skærme. Det er det første program, der kan forstå og udføre komplekse ordrer på naturligt sprog. Men den eneste operation, han kan udføre, er at tage terninger, flytte dem, samle dem eller sprede dem. Han vil aldrig være i stand til at forstå alt, hvad mennesker kan gøre med fysiske objekter.

Virkelige fremskridt er derfor skuffende. Rapporten ALPAC (i) 1966 bemærker, at ti års forskningsmål ikke er nået. Denne bevidsthed om sprogens ekstreme kompleksitet har reduceret forskningsambitionen betydeligt.

1970-80'erne

I løbet af 1970'erne begyndte mange programmører at skrive "konceptuelle ontologier", hvis formål var at strukturere information i data, der kunne forstås af computeren. Dette er tilfældet med MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politik (Carbonell, 1979), Plot Units ( Lehnert 1981).

År 1990-2000

Siden 2000

I januar 2018, kunstige intelligensmodeller, der er udviklet af Microsoft og Alibaba , slår hver gang mennesker i en læse- og forståelsestest fra Stanford University . Naturlig sprogbehandling efterligner menneskelig forståelse af ord og sætninger og giver nu maskinindlæringsmodeller mulighed for at behandle store mængder information, inden de giver præcise svar på spørgsmål, der stilles til dem.

I november 2018, Google lancerer BERT , en sprogmodel.

I Maj 2020, OpenAI , et selskab stiftet af Elon Musk og Sam Altman , annoncerer lanceringen af GPT-3 , en 175 milliarder parameter sprogmodel udgivet som en gaffel på en kommerciel API .

Statistisk NLP

Statistiske anvendelser af naturlig sprogbehandling er afhængige af stokastiske , probabilistiske eller simpelthen statistiske metoder til at løse nogle af de vanskeligheder, der er diskuteret ovenfor, især dem, der opstår, fordi meget lange sætninger er meget tvetydige, når de behandles med realistiske grammatikker. Tillader tusinder eller millioner af mulige analyser. Forskellige metoder involverer ofte brugen af corpora og formaliseringsværktøjer såsom Markov-modeller . Statistisk NLP indeholder alle kvantitative tilgange til automatiseret sproglig behandling, herunder modellering, informationsteori og lineær algebra . Teknologien til statistisk NLP kommer primært fra machine learning og data mining , som involverer læring af data, der kommer fra kunstig intelligens .

Forskningsfelter og applikationer

Feltet med automatisk naturlig sprogbehandling dækker et stort antal forskningsdiscipliner, som kan anvende færdigheder så forskellige som anvendt matematik eller signalbehandling.

Syntaks

Lemmatisering : Gruppering af ord fra samme familie i en tekst for at reducere disse ord til deres kanoniske form (lemmaet), såsom lille , lille , lille og lille . Visse bøjninger kan gøre denne opgave kompleks for computere, såsom at hente den kanoniske form "at have " fra "ville have haft ". På den anden side har " fly " og "vi havde " ikke det samme lemma.
Morfologi : Gruppering af forskellige ord gennem deres dele, såsom suffikser , præfikser , radikaler . For eksempel kan snedække opdeles i " en- + neige + -ment ".
Morfosyntaktisk mærkning : Tildeler hvert ord i en tekst til dens grammatiske kategori . For eksempel kan ordet lukker være et verbum i "han lukker døren" og et substantiv i "han går på gården".
Syntaksanalyse : Morfosyntaktisk mærkning af hvert ord i en tekst som i et syntaks-træ . Nogle tvetydige sætninger kan fortolkes på flere forskellige måder, såsom " Jeg kigger på manden med kikkerten ", hvilket kan betyde "Jeg kigger på manden ved hjælp af kikkert" eller "Jeg kigger på manden, der har kikkert "eller" Jeg ser på manden, der er ledsaget af tvillingsøstre ".
Afgrænsning af sætninger: Adskillelse af sætninger fra en tekst. Skriftligt bruges tegnsætning eller store bogstaver normalt til at adskille sætninger, men komplikationer kan være forårsaget af forkortelser, der bruger punktum eller citater med tegnsætning inden for en sætning osv
Rootisering : Gruppering af ord, der har en fælles rod og tilhører det samme leksikale felt. Fx fersken , fersken , fiskeren har den samme rod, men hverken fersken (frugt) , eller synd , er en del af den samme leksikalske område.
Ordadskillelse : På talesprog er sætninger kun en kæde af fonemer, hvor det typografiske rum ikke udtages. Eksempelvis kan sætningen / ɛ̃bɔnapaʁtəmɑ̃ʃo / forstås identisk som “en god varm lejlighed” og “en enarmet Bonaparte ”.

Semantik

Maskinoversættelse : Dette er et af de mest komplekse problemer, siger IA-komplet , som kræver en masse viden, ikke kun sproglig, men også om verden. Det er den første søgeapplikation, der er aktiv siden 1950'erne.
Automatisk tekstgenerering : Skrivning af syntaktisk og semantisk korrekte tekster, for eksempel for at producere vejrudsigter eller automatiserede rapporter.
Automatisk tekstoversigt , omformulering og omskrivning : Udtrækning af relevant indhold fra en tekst, afsløring af de vigtigste oplysninger, afskedigelser for at generere en sammenhængende menneskeligt troværdig tekst.
Lexikalisk tvetydighed : Stadig uløst problem, der består i at bestemme betydningen af et ord i en sætning, når det kan have flere mulige betydninger afhængigt af den generelle kontekst.
Stavekorrektion : udover en sammenligning med ordbøgernes ord og en omtrentlig søgning for at foreslå korrektioner er der grammatikkorrektorer, der bruger semantik og kontekst til at rette homofonier .
Samtaleagenter og spørgsmål og svar-systemer : Kombination af et sprogforståelsestrin og derefter et tekstgenereringsstadium.
Coreference- detektion og anaforaløsning : Påvisning af forbindelsen mellem flere ord i en sætning, der henviser til det samme emne.

Signalbehandling (tale og skrivning)

Håndskriftsgenkendelse , optisk tegngenkendelse og automatisk dokumentlæsning : Systemanalyse og billedbehandling kombineret med sproglige regler til vurdering af sandsynligheden for forekomst af afkodede bogstaver og ord.
Automatisk talegenkendelse : Akustisk analyse, sammenhæng mellem elementære lydsegmenter og leksikale elementer, derefter korrespondance mellem mønstrene opnået med aktuelle ord eller ordsekvenser, der ofte vises.
Talesyntese : En oversættelse til det fonetiske alfabet bruges oftest, men den grammatiske kategori skal også tages i betragtning; for eksempel skal vi genkende anden- ent som stum i eksemplet "Præsidentens præsident". Ord med uregelmæssig udtale skal gemmes. Derudover skal intonation og prosodi også tages i betragtning for at opnå en naturlig effekt.
Talebehandling : Kombinerer de to kategorier ovenfor.
Påvisning af sprog og dialekter: både fra tekster og fra talte udsagn.

Hentning af oplysninger

Tekstminedrift : Søgning efter specifik information i et korpus af givne dokumenter, der bruger indeksering af indhold .
Informationssøgning : Underdomæne til tekstminedrift; den mest berømte applikation vedrører søgemaskiner , som også gennemgår analysen af metadata og links mellem siderne selv.
Anerkendelse af navngivne enheder : Bestemmelse i en tekst med egennavne, såsom personer eller steder samt mængder, værdier eller datoer.
Klassificering og kategorisering af dokumenter : Aktivitet, der består i automatisk klassificering af dokumentationsressourcer, der normalt kommer fra et korpus.
Intelligente vejledningssystemer: Anvendes specielt til sprogundervisning
Sentimentanalyse : Formålet er at udtrække følelsen af en tekst (normalt positiv eller negativ) i henhold til ordene og typen af sprog, typografiske spor eller den person, der skrev den.
Automatisk dokumentanbefaling : Består af at udtrække vigtig information fra en database for at linke dem til "serier" for at tilbyde dens elementer til folk, der er interesseret i andre elementer i denne serie.

Bibliometri

De bibliometri er brugen af naturligt sprog forarbejdning videnskabelige publikationer.

Bibliometrisk undersøgelse af automatisk naturlig sprogbehandling

Den første større undersøgelse blev udført i 2013 i anledning af jubilæet for Association for Computational Linguistics (ACL) med en workshop med titlen Rediscovering 50 Years of Discoveries in Natural Language Processing . Opdagelser i naturlig sprogbehandling ”).

Samme år fandt operation Naturlig sprogbehandling til naturlig sprogbehandling (NLP4NLP) sted med fokus på anvendelse af automatiske naturlige sprogbehandlingsværktøjer i arkiverne med automatisk naturlig sprogbehandling fra 1960'erne til i dag. Det var et spørgsmål om automatisk at bestemme, hvem der var opfinderne af de tekniske termer, som vi i øjeblikket bruger.

Et andet studieområde er at bestemme enhver klipning og indsætning, som forskere i naturlig sprogbehandling udfører, når de skriver et videnskabeligt papir.

En komplet syntese af NLP4NLP-arbejde blev offentliggjort i 2019 som et dobbelt nummer af tidsskriftet Frontiers in Research Metrics and Analytics for kvantitativt at beskrive flere aspekter såsom andelen af kvinder (sammenlignet med mænd), antallet af medforfattere, udvikling af studiefag mv. .

Se også

Bibliografi

(en) Dan Jurafsky, tale- og sprogbehandling, Stanford, Pearson (forlag) ,2008, 320 s. ( ISBN 9780131873216 )

Relaterede artikler

Computer lingvistik
Forståelse af naturligt sprog
Lexical Markup Framework (LMF), ISO-standardiseringsarbejde med automatiske sprogbehandlingsleksikoner
Modular Audio Recognition Framework (MARF)
Foreningen til automatisk behandling af sprog (ATALA): førende videnskabeligt samfund for den fransktalende verden
LREC
LRE Map , database over ressourcer, der bruges til automatisk sprogbehandling
Gensim
SpaCy
Natural Language Toolkit
TALN-konference siden 1994 i Frankrig
BERT (sprogmodel)
Stanford-spørgsmål, der svarer på datasæt

eksterne links

ATALA Association for Automatic Language Processing
Technolangue , sprogteknisk portal

Myndighedsregistreringer :
- Library of Congress
- National Diet Library
Meddelelser i generelle ordbøger eller leksika : Encyclopædia Britannica • Encyclopædia Universalis • Gran Enciclopèdia Catalana

Referencer

Se for eksempel Ludovic Tanguy, "Automatic Processing of Natural Language and Interpretation: Contribution to the Development of a Computer Model of Interpretative Semantics" , Computer Science and Language , University of Rennes 1, 1997.
Eugene Charniak, Introduktion til kunstig intelligens , Addison-Wesley, 1984, s. 2.
Definition af sprogteknik på evariste.org- webstedet (1996): ” Sprogteknik er et sæt metoder og teknikker i krydset mellem datalogi og lingvistik. Det sigter mod at implementere alle computerteknikker (ofte de mest avancerede) til udvikling af applikationer med en mere eller mindre bred forståelse af det naturlige sprog. "
Marc-Emmanuel Perrin, Maskiner fremskridt med deres læring af naturligt sprog , Mission for videnskab og teknologi fra Frankrikes ambassade i USA, 22. september 2017.
Rubrik “Turing Criterion”, Dictionary of Computing and the Internet 2001 , Micro Application, 2000, s. 232.
(i) John Hutchins, Fra første idé til første demonstration: de spirende års maskinoversættelse, 1947-1954. En kronologi, i maskinoversættelse , 12, s. 195-252.
(i) Erwin Reifler, MT løsning af sproglige problemer gennem leksikografi, i Proceedings of National Symposium on Maskinoversættelse , Maskinoversættelse, 12, February 2-5 1960, s. 195-252.
Marc-Emmanuel Perrin, op. cit. .
Serge Boisse, Etaoin Shrdlu , om Journal d'un terrien , udateret.
Villard Masako ( red. ), “ Machine translation and cognitive research ”, History Epistemology Language (Language sciences and cognitive research) , vol. Bind 11, n o hæfte 1,1989, s. 55-84 ( DOI 10.3406 / hel.1989.2290 , www.persee.fr/doc/hel_0750-8069_1989_num_11_1_2290)
“ Alibaba's AI Outguns Humans in Reading Test, ” Bloomberg.com ,15. januar 2018( læs online , konsulteret den 16. januar 2018 ).
Toutanova, Kristina, “ BERT: Foruddannelse af dybe tovejstransformatorer til sprogforståelse ” , på arXiv.org ,11. oktober 2018(adgang 31. juli 2020 ) .
(in) Will Douglas Heaven, " OpenAIs nye sproggenerator GPT-3 er chokerende god-mindless og helt Call " , MIT Technology Review ,20. juli 2020( læs online ).
Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing , MIT Press (1999), ( ISBN 978-0-262-13360-9 ) , s. xxxi .
(i) Radev Dragomir R Muthukrishnan Pradeep, Qazvinian Vahed, Jbara Abu Amjad, ACL Anthology Corpus Netværk, Sprog Ressourcer og evaluering , 47, 2013, Springer, s. 919–944.
(i) Gil Francopoulo Joseph Mariani og Patrick Paroubek, " The Cobbler Børne- Will not Go barfodet " i D-Lib Magazine ,november 2015 (konsulterede 12. juni 2016).
(i) Joseph Mariani Patrick Paroubek , Gil Francopoulo og Olivier Hamon , " Genopdage 15 + 2 års opdagelser i sproglige ressourcer og evaluering " , sproglige ressourcer og evaluering , bd. 50,1 st april 2016, s. 165–220 ( ISSN 1574-020X og 1574-0218 , DOI 10.1007 / s10579-016-9352-9 , læst online , adgang til 12. juni 2016 ).
(i) Gil Francopoulo Joseph Mariani og Patrick Paroubek, "En Undersøgelse af Genbrug og plagiat i LREC papirer" i Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik Bente Maegaard Joseph Mariani, Asuncion Moreno, Jan Odijk og Stelios Piperidis, Proceedings fra den tiende internationale konference om sprogressourcer og evaluering (LREC 2016) , Portorož (Slovenien), European Language Resources Association (ELRA),2016( ISBN 978-2-9517408-9-1 , læs online ).
(i) Joseph Mariani , Gil Francopoulo og Patrick Paroubek , " Corpus NLP4NLP (I): 50 års samarbejde og publikation Citation i Speech and Language Processing " , Frontiers in Research Metrics og Analytics ,2019( læs online )
(i) Joseph Mariani , Gil Francopoulo Patrick Paroubek og Frederic Vernier , " Corpus NLP4NLP (II): 50 års forskning i Speech and Language Processing " , Frontiers in Research Metrics og Analytics ,2019( læs online ).