Automatisk sprogbehandling

Automatisk naturlig sprogbehandling
Underklasse af Kunstig intelligens , datalogi , computinglingvistik , industri , akademisk disciplin
Objekter Lemmatisering
Grammatisk mærkning
syntaks analyse
sætning grænse flertydig ( da )
rootization Leksikalsk
terminologiekstraktion
semantik ( da )
maskinoversættelse
opkaldt enhed anerkendelse
automatisk generation tekst
Optical Character Recognition
spørgsmål-svar-systemer
tekstmæssige entailment ( da )
forholdet udvinding ( da )
udtalelse Mining
tekst segmentering ( da )
leksikalske flertydig
Automatisk resumé tekst
coreference
tale analyse
Automatisk tale genkendelse
tale segmentering ( da )
talesyntese
Word indlejring
decompounding ( d )

Den naturlige sprogbehandling (Rep. NLP ) eller automatisk behandling af naturligt sprog eller sprogbehandling (Rep. TAL ) er et tværfagligt felt, der involverer sprog , computeren og kunstig intelligens , som har til formål at skabe naturlige sprogbehandlingsværktøjer til forskellige applikationer. Det bør ikke forveksles med computinglingvistik , der sigter mod at forstå sprog ved hjælp af computerværktøjer.

TALN kom ud af forskningslaboratorier for gradvist at blive implementeret i computerapplikationer, der kræver integration af menneskeligt sprog i maskinen. Så NLP kaldes undertiden sproglig teknik . I Frankrig har Natural Language Processing sin tidsskrift, Automatic Language Processing , udgivet af Association for Automatic Language Processing (ATALA).

Historie

1950-60'erne

Det første arbejde med naturlig sprogbehandling begyndte i 1950'erne, hovedsageligt i USA, hvor den politiske sammenhæng, knyttet til den kolde krig , var gunstig for udviklingen af ​​temaet maskinoversættelse .

De første computerapplikationer var knyttet til automatisk behandling af samtaler. I 1950 præsenterede Alan Turing i sin grundlæggende artikel om kunstig intelligens, "  Computing machines and intelligence  ", en evalueringsmetode, som senere ville blive kaldt "  Turing test  " eller "Turing kriterium". Denne test måler graden af ​​intelligens af en maskine, baseret på evnen i et samtaleprogram til at efterligne et menneske: i en udveksling af skriftlige meddelelser skal et menneske afgøre, om hans samtalepartner er en maskine eller ej. Det anvendte grundlag er imidlertid skrøbeligt til at evaluere kunstig intelligens, fordi indtrykket af en enkelt bruger afhænger af for mange faktorer relateret til det omgivende miljø, der som regel kan etableres.

I 1954 involverede Georgetown-IBM-eksperimentet , der blev udført i fællesskab af Georgetown University og IBM- firmaet , den fuldautomatiske oversættelse til engelsk af mere end tres romaniserede russiske sætninger vedrørende områderne politik, lov, matematik og videnskab. Forfatterne hævder, at maskinoversættelse inden for tre til fem år ikke længere vil være et problem. Det ser dog ud til, at udtalelserne på russisk blev valgt med omhu, og at mange af de operationer, der blev udført til demonstrationen, var tilpasset bestemte ord og sætninger. Derudover er der ingen relationel eller syntaktisk analyse for at identificere sætningernes struktur. Den anvendte metode er en i det væsentlige leksikografisk metode baseret på en ordbog, hvor et givet ord er knyttet til specifikke regler og procedurer.

De begreber, der blev introduceret af Turing, tillod Joseph Weizenbaum at udvikle, fra 1964 til 1966, den første konversationsautomat, der bedrog et menneske med hensyn til hans natur. Simuleringen af ​​en Rogerian- psykoterapeut , Automaton ved navn ELIZA , skønt han næsten ikke bruger information om menneskelig tænkning eller følelser, undertiden formår at skabe en interaktion, der overraskende ligner den menneskelige interaktion. Så når "patienten" overstiger vidensbasens svage kapacitet, kan ELIZA give et generisk svar, såsom "Hvorfor siger du, at du har hovedpine? »Som svar på« Jeg har hovedpine ».

I slutningen af ​​1960'erne udviklede Terry Winograd , en MIT-forsker, et naturligt sprogprogram kaldet SHRDLU (udtalt "chreudeul"), der giver brugeren mulighed for at tale med en computer for at styre en "verden af ​​bygningskuber" ( en blokverden), der vises på en af ​​de første skærme. Det er det første program, der kan forstå og udføre komplekse ordrer på naturligt sprog. Men den eneste operation, han kan udføre, er at tage terninger, flytte dem, samle dem eller sprede dem. Han vil aldrig være i stand til at forstå alt, hvad mennesker kan gøre med fysiske objekter.

Virkelige fremskridt er derfor skuffende. Rapporten ALPAC  (i) 1966 bemærker, at ti års forskningsmål ikke er nået. Denne bevidsthed om sprogens ekstreme kompleksitet har reduceret forskningsambitionen betydeligt.

1970-80'erne

I løbet af 1970'erne begyndte mange programmører at skrive "konceptuelle ontologier", hvis formål var at strukturere information i data, der kunne forstås af computeren. Dette er tilfældet med MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politik (Carbonell, 1979), Plot Units ( Lehnert 1981).

År 1990-2000

Siden 2000

I januar 2018, kunstige intelligensmodeller, der er udviklet af Microsoft og Alibaba , slår hver gang mennesker i en læse- og forståelsestest fra Stanford University . Naturlig sprogbehandling efterligner menneskelig forståelse af ord og sætninger og giver nu maskinindlæringsmodeller mulighed for at behandle store mængder information, inden de giver præcise svar på spørgsmål, der stilles til dem.

I november 2018, Google lancerer BERT , en sprogmodel.

I Maj 2020, OpenAI , et selskab stiftet af Elon Musk og Sam Altman , annoncerer lanceringen af GPT-3 , en 175 milliarder parameter sprogmodel udgivet som en gaffel på en kommerciel API .

Statistisk NLP

Statistiske anvendelser af naturlig sprogbehandling er afhængige af stokastiske , probabilistiske eller simpelthen statistiske metoder til at løse nogle af de vanskeligheder, der er diskuteret ovenfor, især dem, der opstår, fordi meget lange sætninger er meget tvetydige, når de behandles med realistiske grammatikker. Tillader tusinder eller millioner af mulige analyser. Forskellige metoder involverer ofte brugen af ​​corpora og formaliseringsværktøjer såsom Markov-modeller . Statistisk NLP indeholder alle kvantitative tilgange til automatiseret sproglig behandling, herunder modellering, informationsteori og lineær algebra . Teknologien til statistisk NLP kommer primært fra machine learning og data mining , som involverer læring af data, der kommer fra kunstig intelligens .

Forskningsfelter og applikationer

Feltet med automatisk naturlig sprogbehandling dækker et stort antal forskningsdiscipliner, som kan anvende færdigheder så forskellige som anvendt matematik eller signalbehandling.

Syntaks

Semantik

Signalbehandling (tale og skrivning)

Hentning af oplysninger

Bibliometri

De bibliometri er brugen af naturligt sprog forarbejdning videnskabelige publikationer.

Bibliometrisk undersøgelse af automatisk naturlig sprogbehandling

Den første større undersøgelse blev udført i 2013 i anledning af jubilæet for Association for Computational Linguistics (ACL) med en workshop med titlen Rediscovering 50 Years of Discoveries in Natural Language Processing . Opdagelser i naturlig sprogbehandling ”).

Samme år fandt operation Naturlig sprogbehandling til naturlig sprogbehandling (NLP4NLP) sted med fokus på anvendelse af automatiske naturlige sprogbehandlingsværktøjer i arkiverne med automatisk naturlig sprogbehandling fra 1960'erne til i dag. Det var et spørgsmål om automatisk at bestemme, hvem der var opfinderne af de tekniske termer, som vi i øjeblikket bruger.

Et andet studieområde er at bestemme enhver klipning og indsætning, som forskere i naturlig sprogbehandling udfører, når de skriver et videnskabeligt papir.

En komplet syntese af NLP4NLP-arbejde blev offentliggjort i 2019 som et dobbelt nummer af tidsskriftet Frontiers in Research Metrics and Analytics for kvantitativt at beskrive flere aspekter såsom andelen af ​​kvinder (sammenlignet med mænd), antallet af medforfattere, udvikling af studiefag  mv. .

Se også

Bibliografi

  • (en) Dan Jurafsky, tale- og sprogbehandling, Stanford, Pearson (forlag) ,2008, 320  s. ( ISBN  9780131873216 )

Relaterede artikler

eksterne links

  • ATALA Association for Automatic Language Processing
  • Technolangue , sprogteknisk portal

Referencer

  1. Se for eksempel Ludovic Tanguy, "Automatic Processing of Natural Language and Interpretation: Contribution to the Development of a Computer Model of Interpretative Semantics" , Computer Science and Language , University of Rennes 1, 1997.
  2. Eugene Charniak, Introduktion til kunstig intelligens , Addison-Wesley, 1984, s. 2.
  3. Definition af sprogteknik på evariste.org- webstedet (1996): Sprogteknik er et sæt metoder og teknikker i krydset mellem datalogi og lingvistik. Det sigter mod at implementere alle computerteknikker (ofte de mest avancerede) til udvikling af applikationer med en mere eller mindre bred forståelse af det naturlige sprog. "
  4. Marc-Emmanuel Perrin, Maskiner fremskridt med deres læring af naturligt sprog , Mission for videnskab og teknologi fra Frankrikes ambassade i USA, 22. september 2017.
  5. Rubrik “Turing Criterion”, Dictionary of Computing and the Internet 2001 , Micro Application, 2000, s. 232.
  6. (i) John Hutchins, Fra første idé til første demonstration: de spirende års maskinoversættelse, 1947-1954. En kronologi, i maskinoversættelse , 12, s. 195-252.
  7. (i) Erwin Reifler, MT løsning af sproglige problemer gennem leksikografi, i Proceedings of National Symposium on Maskinoversættelse , Maskinoversættelse, 12, February 2-5 1960, s. 195-252.
  8. Marc-Emmanuel Perrin, op. cit. .
  9. Serge Boisse, Etaoin Shrdlu , om Journal d'un terrien , udateret.
  10. Villard Masako ( red. ), “  Machine translation and cognitive research  ”, History Epistemology Language (Language sciences and cognitive research) , vol.  Bind 11, n o  hæfte 1,1989, s.  55-84 ( DOI  10.3406 / hel.1989.2290 , www.persee.fr/doc/hel_0750-8069_1989_num_11_1_2290)
  11. “  Alibaba's AI Outguns Humans in Reading Test,  ” Bloomberg.com ,15. januar 2018( læs online , konsulteret den 16. januar 2018 ).
  12. Toutanova, Kristina, “  BERT: Foruddannelse af dybe tovejstransformatorer til sprogforståelse  ” , på arXiv.org ,11. oktober 2018(adgang 31. juli 2020 ) .
  13. (in) Will Douglas Heaven, "  OpenAIs nye sproggenerator GPT-3 er chokerende god-mindless og helt Call  " , MIT Technology Review ,20. juli 2020( læs online ).
  14. Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing , MIT Press (1999), ( ISBN  978-0-262-13360-9 ) , s.  xxxi .
  15. (i) Radev Dragomir R Muthukrishnan Pradeep, Qazvinian Vahed, Jbara Abu Amjad, ACL Anthology Corpus Netværk, Sprog Ressourcer og evaluering , 47, 2013, Springer, s. 919–944.
  16. (i) Gil Francopoulo Joseph Mariani og Patrick Paroubek, "  The Cobbler Børne- Will not Go barfodet  " i D-Lib Magazine ,november 2015 (konsulterede 12. juni 2016).
  17. (i) Joseph Mariani Patrick Paroubek , Gil Francopoulo og Olivier Hamon , "  Genopdage 15 + 2 års opdagelser i sproglige ressourcer og evaluering  " , sproglige ressourcer og evaluering , bd.  50,1 st april 2016, s.  165–220 ( ISSN  1574-020X og 1574-0218 , DOI  10.1007 / s10579-016-9352-9 , læst online , adgang til 12. juni 2016 ).
  18. (i) Gil Francopoulo Joseph Mariani og Patrick Paroubek, "En Undersøgelse af Genbrug og plagiat i LREC papirer" i Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik Bente Maegaard Joseph Mariani, Asuncion Moreno, Jan Odijk og Stelios Piperidis, Proceedings fra den tiende internationale konference om sprogressourcer og evaluering (LREC 2016) , Portorož (Slovenien), European Language Resources Association (ELRA),2016( ISBN  978-2-9517408-9-1 , læs online ).
  19. (i) Joseph Mariani , Gil Francopoulo og Patrick Paroubek , "  Corpus NLP4NLP (I): 50 års samarbejde og publikation Citation i Speech and Language Processing  " , Frontiers in Research Metrics og Analytics ,2019( læs online )
  20. (i) Joseph Mariani , Gil Francopoulo Patrick Paroubek og Frederic Vernier , "  Corpus NLP4NLP (II): 50 års forskning i Speech and Language Processing  " , Frontiers in Research Metrics og Analytics ,2019( læs online ).