Et naturligt sprog eller almindeligt sprog er et "normalt" sprog, der tales af et menneske. Det er imod formelt sprog , såsom computersprog , såvel som det kreative sprog Af konstruerede sprog .
Vi udpeger det naturlige sprog det sprog, der tales af mennesker, og som dukkede op mellem 200.000 år og 50.000 år før vores æra. Det er detaljeret af sproghistorien . Efter 2 millioner års drægtighed af Homo erectus , der overtog fra Homo habilis , dukkede den moderne mand, kaldet Homo sapiens , sammen med mange faktorer:
Der er to scenarier for udseendet af Homo sapiens : scenariet ” Out of Africa ” og scenariet med pluri-centripetal (polygenese). Nyere forskning inden for paleo-lingvistik identificerede i begyndelsen af XXI E århundrede en base på 27 ord, der er almindelige ved roden til alle de skrevne jordiske sprog, hvilket skubber til at favorisere scenariet ” Ud af Afrika ” (monogenese). Faktisk ville adskillige kilder ikke have haft en grund til at vedtage den samme udgangsprog.
Efterfølgende indførte Homo sapiens sig inden for den menneskelige art, enten på grund af den produktivistiske hypotese eller på grund af den sociologiske hypotese.
I omkring 7000 år har dette sprog taget en skriftlig form på et antal sprog, som derefter etablerede sig som de dominerende sprog. Hovedsageligt på grund af dette er 6000 sprog i fare for udryddelse i dag.
I datalogi er det naturlige sprog imod computersproget :
Udfordringen for udgivere af søgemaskiner er at kunne levere relevante resultater til en forespørgsel formuleret på et naturligt sprog.
Alan Turing , britisk matematiker af den første halvdel af det XX th århundrede har også formodede, at kunstig intelligens så godt kunne give indtryk af at "tale" det ville være vanskeligt at skelne et menneske. Tests af kunstig intelligens, der har evnen til at efterligne menneskelig samtale, kaldes Turing- tests.
Hvis konsistensen af en tekst er egenskaben for en tekst, der ikke kræver fradrag for at flytte fra et dokumentelement til det næste, vil vi bruge eksemplet fra Florian Wolf et al. for at illustrere denne egenskab:
Konklusionerne, der skal gøres for at forstå teksten, er trivielle her under overholdelse af princippet om relevans i transmission af information. De er progressive. Det tager godt vejr at lancere en raket, og Ariane-løfteraket kan starte to satellitter. Vi er stadig nødt til at karakterisere disse slutninger: "vejret var fint, og derfor" gør den første slutning eksplicit, og "Ariane-løfteraket [...] sætter to satellitter i kredsløb" gør den anden slutning eksplicit. Det vides ikke, om bæreraketten kan starte fire satellitter, men det er ikke meningen. Vi skal være opmærksomme på behovet for alle ordene i denne tekst.
Derudover respekteres progressionen: vi taler om vejret, derefter lanceringen af raketten og endelig hvad der lanceres.
Fjern fra denne tekst på plads adjektiv knyttet til navneord centrum, og vi ikke længere ved, hvordan man retfærdiggøre dens sammenhæng. Vi skal derefter gøre en mindre eksplicit slutning: Kourou-centret er et rumligt centrum. For at gøre dette skal vi se på teorien om pragmatik for at vurdere omkostningerne ved denne slutning. Det skal bemærkes, at relevansprincippet udvikler sig stærkt, hvad enten det er på et skriftsprog, hvor de forudbestemte er svage eller i det mundtlige sprog, hvor det forudbestemte er vigtigt, idet man ved, at forfatteren kender en del af sin lytteres viden.
Det skal erkendes, at mange tekster ikke tilfredsstiller denne egenskab: Michel Charolles afsætter således mange dokumenter til opgørelse af disse tvetydighedssituationer i teksterne:
Disse eksempler fremhæver forestillingen om dybden af implicit behandling, som disse tekster kræver for at opnå konsistens.
Typografisk overensstemmelse defineres som egenskab ved tekster for at respektere stavning og typografi skriftligt. Hvis det er acceptabelt at overveje, at "Lift-Gate" udgør en navngivet enhed, og at "lift-gate" er et almindeligt navn, introducerer den bogstavelige oversættelse af ordet "Lift-Gate" til en navngivet enhed unødvendig støj i den semantiske behandling ... Det er ønskeligt at filtrere disse manifestationer i de morfologiske behandlinger.
Lexikal overensstemmelse består i at vælge det rigtige udtryk for et koncept: "Bagklap" er således et eksplicit sammensat ord, hvor "bagklappen" oversættes på fransk med "bagklap", selvom det er fransk, er dette udtryk overflødigt, fordi "bagklap" er nok.
Brugen af en ordbog er tilfredsstillende, så længe man ikke kun søger på de stødte ord, men også på de dele af ordene (lexemes), der sandsynligvis udgør ord.
Sådan blev valget i de første to dokumenter af corpus erstattet "decklid" med "bagagerumslåg", hvilket betyder "bagagerumslåg". Vi vil betegne denne type fejl ved leksikalsk fejl i forbindelse med analysen af sammensatte ord.
Ud over det skal vi vende os til at løse udtrykkernes tvetydigheder. Vi bør ikke stoppe ved rodlemmaerne af sammensatte ord.
De stilistiske kvaliteter, der bidrager til en bedre sammenhæng. Generiske dokumenter drager fordel af at blive skrevet i den nuværende generiske ved at standardisere negative former så meget som muligt. Således antager et krav den aktive form og er skrevet i den nuværende generiske, og omdannelsen af passive former til aktive former er tilstrækkelig til at tilfredsstille behovet. Det kan også være nyttigt at bruge en transformation til at behandle negative tekster.
Dokumenternes kvaliteter er hovedsageligt kvalificerede med hensyn til komponenterne i kernen i sammenhæng:
Referencerne er blandt andet fra værket Aux Origines des Langues et du Langue, redigeret af Jean-Marie Hombert, Fayard , 2005