Semantik

De semantik er en gren af lingvistik , at undersøgelser den tilkendegivet , hvad vi taler om, hvad vi ønsker at formidle et udsagn . Understøttelsen af semantik, syntaks , bekymringer for sin del af signifier , dens form, dens sprog, dens stavning , dets grammatik ,  etc.  ; det er formen for erklæringen.

Specielt har semantik flere undersøgelsesobjekter:

Udtrykket semantik bruges i modsætning til syntaks i studiet af computersprog , for hvilket det er blevet formelt udviklet (se semantik for programmeringssprog ). Der er den samme sammenhæng mellem semantik og syntaks som mellem indhold og form.

Etymologi

Det semantiske ord er afledt af det græske σημαντικός ( sêmantikos ), "betegnet", selv dannet af σημαίνω ( sêmainô ), "for at betegne, indikere" eller σῆμα ( sêma ), "tegn, mærke". Det blev taget i slutningen af XIX th  århundrede af den franske lingvist Michel Bréal , forfatter til den første traktat semantik, semantisk test udkom i 1897.

Forskel mellem semantisk analyse og parsing

Formålet med syntaktisk analyse såvel som semantisk analyse inden for lingvistik er at karakterisere udtalelsen som en helhed, hovedsageligt ved at bestemme strukturen for udtalelsen. I begge tilfælde er bestemmelsen af ​​strukturer baseret på en karakterisering af dens grundlæggende elementer, ordene og deres egne bestanddele, men på en anden måde ifølge disse to tilgange.

Syntaktisk analyse beskæftiger sig med sætninger i forhold til en sætning. Det er ikke muligt at udføre en syntaktisk analyse af ordet "lille" for eksempel, hvis det ikke er inkluderet i en sætning i forhold til andre ord komplement eller gruppeledere.

Parsing kan således identificeres som en analyse af funktionelle strukturer, der kan opnås gennem udøvelse af grammatikregler.

Semantisk analyse er på sin side interesseret i disse strukturer ved at observere de mekanismer, der er specifikke for konstruktion af mening. Et frø er den mindste meningsenhed.

Semantik kan beskæftige sig med ord for ord.

Eksempel:

Vi analyserer ordet "lille" som følger:

PETIT (Adj. ⇒ som ikke er stor) + E (feminint mærke) + S (flertalsmærke) [PETIT - ordets basis eller radikale (leksikalt tegn), E + S - er grammatiske tegn].

For ordet "lille" er der derfor tre semer.

Fra det samme ord er andre analyser mulige uden nødvendigvis at bringe et helt udsagn i lyset (jf. Introduktion).

Sondringen mellem syntaktisk analyse og semantisk analyse, der er etableret her, svarer til den mest udbredte tilgang inden for nutidig lingvistik, den, der arver fra strukturalismen indført af Ferdinand de Saussure . Vi finder udtryk strukturel analyse eller komponentanalyse anvendt som ækvivalent for mere direkte at betyde den tilgang, der anvendes til at udføre semantisk analyse i henhold til denne teori. Strukturen opfattes som direkte underliggende sætningen , sidstnævnte er en struktur som det fremgår af syntaks eller grammatik, og ordet anses for at være forbundet med dets semantiske træk . Andre tilgange, som primært afhængighedsgrammatikken til Lucien Tesnière , forud for strukturalismen , forbeholder sig kvalifikationsstrukturen syntaktisk. For Tesnière kaldes det syntaktiske niveau det strukturelle plan, mens det semantiske plan anses for at være relateret til psykologi og også til logik .

Anvendelser til datamining

Data udforskning metoder gør det muligt at få mening ud af et sæt af data, som synes at være uensartede a priori (se også kunstig intelligens ), og derfor skabe semantik. Semantikken, der frigives, tager generelt tre former (oversættelse af formelle signifikatorer) som følge af kunstig intelligens:

De er signifikanter i den forstand, at de repræsenterer viden. Sådanne strukturer kommenteres derefter i startdataene, hver data bærer derefter mærket for, at de hører til en gren af ​​træet, en kasse i tabellen osv. Analysen genoptages derefter på et mere komplekst niveau af forståelse.

Opdagelse af viden i databaser

Da maskinen kun manipulerer signifikatorer, er det bydende nødvendigt, at dataudvindingsprocessen involverer en menneskelig ekspert på området. Dette gendanner den ekstraherede semantik og giver den mening og værdi. Tre kriterier er udstillet til dette formål:

Det ideelle er at have en triplet NEJ / JA / JA .

Et sådant projekt kaldes "vidensopdagelse i databaser", på engelsk KDD, Knowledge Discovery in Databases .

Endelig spiller den ekstraherede semantik rollen som informationskortlægning, det gør det muligt at finde information i forhold til hinanden. Denne "kartografiske" rolle gør det muligt at gemme oplysninger, organisere dem og senere finde dem. Enhver model, sæt af kategorier, freudiansk topografi er så de facto en kartografi af information, det vil sige en formaliseret kontekst.

Det er faktisk data om data, metadata . Specifikke arkitekturer til styring af metadata , det kaldes kunde eller server for metadata . Et kendt system er Dublin Core Metadata Initiative (DCMI).

Det semantiske web er et projekt af samme type som DCMI, der sigter mod at skabe, styre og udnytte systematisk metadata for hver web side . Således bliver indholdet af hver webside forklaret for signifikatorer, og maskinen vil være i stand til at begrunde indholdets relevans og ikke længere på leksikalske statistikker. Dette kan have dramatiske konsekvenser for teknologier til hentning af information såvel som søgemaskiners udseende og funktion .

Specielt tilfælde af tekstudgravning

Tekstminedrift består i at omdanne et "tekst" -objekt til et "tabel", "træ" eller "graf" -objekt ved hjælp af semantisk eller syntaktisk bearbejdning og derefter anvende tekstuel minedriftsteknik til dette formaliserede objekt. De forventede resultater er generelt:

Den semantiske tilgang har en mere frugtbar litteratur end den syntaktiske tilgang: selvom sidstnævnte har overlegne resultater, tipper de krævede beregningsressourcer ofte skalaerne til fordel for semantisk analyse.

Semantisk analyse omdanner et sæt tekster til en leksikal matrix  :

Særligt tilfælde af ontologier

Udtrykket ”  ontologi  ” har en filosofisk betydning, men i vidensadministration repræsenterer det sandsynligvis den mest udviklede form for semantisk repræsentation af viden.
Det er en slags "superthesaurus" beregnet til at indeksere alle dokumentariske produktioner, der er gemt, indgående eller udgående i en given social gruppe, typisk en virksomhed. Således vil en e-mail, en referencebog, et arbejdsdokument, der deler de samme temaer, automatisk blive linket og derfor sat i sammenhæng og dermed frigive semantisk viden.
Strukturen af ​​en ontologi er praktisk taget et erhverv i sig selv, ligesom design og vedligeholdelse af biblioteketesaurier. Konstruktion er altid kollektiv og ved agglomerering af kompetenceområder.

Den grundlæggende artikulation af en ontologi er som følger:

Eksempel: FUGLE> AIGLE {aigle royal}. Maskinen kan derefter udlede, at den gyldne ørn er en fugl.

I praksis kunne vi således automatisk oversætte en historiebog til ontologi ved at overveje fem typer begreber (dato, sted, begivenhed, fysisk person, juridisk person) og omkring tredive kategorier af verbale links.

For maskinen svarer ræsonnement om den således repræsenterede viden til at "gå" i konceptnetværket som et vejnetværk. Der er specifikke algoritmer, for eksempel stifindere (stifinder) , der søger den korteste vej fra et koncept til et andet under overholdelse af et økonomikriterium: "mindre antal begreber", "større antal sprog", "større antal synonymer ”osv. Resultaterne kan være spektakulære, især hvis du husker, at startpunktet og slutpunktet ikke er begreber, men indekserer URI'er (virksomhedsdokumenter).

Se også

Bibliografi

Dokument, der bruges til at skrive artiklen : dokument brugt som kilde til denne artikel.

Relaterede artikler

Lister

eksterne links

Noter og referencer

  1. Dominique Maingueneau og Ruth Amossy , “  9 | 2012 Analysen af ​​diskursen mellem kritik og argumentation  ” , på journals.openedition.org (adgang 28. maj 2020 )
  2. Grossmann 2008 , s.  222.
  3. Bréal 1897 .
  4. Clive Perdue og José Deulofeu , "  Strukturering af udsagnet: longitudinal study  ", Languages , vol.  21, n o  84,1986, s.  43–63 ( DOI  10.3406 / lgge.1986.1519 , læst online , adgang 28. maj 2020 )
  5. http://www.unil.ch/webdav/site/ling/shared/IntroductionLing/Serra/Intr.a_la_ling.Cours_n_8.pdf .
  6. M. ankommer, elementerne i strukturel syntaks af Lucien Tesnière , fransk sprog , 1969, s. 36-40.