LRE-kort

Den LRE Kort ( Sprog Resources og Evaluering ) er en frit tilgængelig database, dedikeret til ressourcer til Automatisk Sprog Processing (NLP). Det originale træk ved LRE Map er, at optagelserne indsamles under indsendelse til videnskabelige konferencer. Optegnelserne renses derefter og samles i en database med navnet LRE Map.

LRE-kortet er beregnet til at være et instrument til at indsamle information om sproglige ressourcer og bliver samtidig et fællesskab for brugerne, et sted til deling og opdagelse af ressourcer, diskussion, feedback om brug, opdagelse af nye tendenser osv. Det er et instrument til at opdage, undersøge og dokumentere sproglige ressourcer i bred forstand inklusive både data og værktøjer.

Den store mængde information kan analyseres på forskellige måder. Nogle analyser er tilgængelige på internettet. For eksempel er det muligt at kende de mest anvendte ressourcer, de mest repræsenterede sprog, de applikationer, der bruges eller under udvikling, andelen af ​​nye ressourcer sammenlignet med gamle eller den måde, hvorpå ressourcerne distribueres i samfundet.

Sammenhæng

En række institutioner vedligeholder kataloger over sproglige ressourcer: ELRA, Linguistic Data Consortium, NICT Universal Catalog, Association for Computational Linguistics (ACL) Data and Code Repository, OLAC, LT World osv.). Men det er blevet anslået, at kun 10% af ressourcerne kendes, enten gennem distributionskataloger eller gennem direkte leverandørreklame. Resten er relativt skjult, den eneste gang ressourcen opstår, er når den præsenteres i sammenhæng med videnskabskommunikation. Alligevel kan ressourcen blive efterladt i mørket, når forskningsemnet ikke er selve ressourcen.

Historisk

LRE Map blev tidligere kaldt “LREC Map” under forberedelsen af LREC- konferencen 2010. Mere præcist blev ideen diskuteret inden for FlaReNet-projektet, og i samarbejde med ELRA blev ”kortet” oprettet til LREC-2010. Arrangørerne af LREC bad forfatterne om at give ligetil information om eventuelle ressourcer (i bred forstand, dvs. inklusive NLP-værktøjer, standarder og vurderingssæt), der er oprettet eller brugt som sådan. Som beskrevet i videnskabelig kommunikation. Alle disse beskrivelser blev derefter samlet i en global matrix kaldet LREC Map.
Den samme metode er blevet anvendt og udvidet til andre konferencer, herunder COLING-2010, EMNLP-2010, RANLP-2011 og LREC-2012.

Efter denne generalisering til andre konferencer blev LREC Map omdøbt til LRE Map.

Størrelse og indhold

Størrelsen på databasen øges over tid. De data, der blev indsamlet under LREC-2010, omfattede 1889 poster.

Hver ressource er beskrevet i henhold til følgende attributter:

Anvendelser

LRE-kortet er et meget vigtigt redskab til at forstå NLP-aktivitet. Sammenlignet med andre undersøgelser, der er baseret på subjektiviserede vurderinger, er LRE-kortet baseret på reelle fakta.

LRE-kortet har også et stort potentiale ud over at være et informationsindsamlingsværktøj:

Afledte matricer

Dataene blev renset og sorteret af Joseph Mariani (CNRS-LIMSI IMMI) og Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica ) for at beregne de forskellige matricer i den endelige FLaReNet-rapport. Så for eksempel en af ​​dem, matrixen for skriftlige data fra LREC-2010 giver følgende:

Corpus Leksikon Ontologi Grammatik /
sprogmodel
Terminologi
Bulgarsk 7 6 1 1 1
Tjekkisk 12 7 2 1 1
dansk 6 2 0 2 0
hollandsk 17 8 2 1 2
engelsk 206 77 18 11 10
Estisk 3 1 0 0 1
Finsk 3 2 0 1 0
fransk 44 24 3 4 5
tysk 43 15 4 2 3
Græsk 10 3 2 0 0
Ungarsk 8 4 0 1 1
Irsk 1 0 0 0 0
Italiensk 32 16 4 2 0
Lettisk 9 0 0 0 1
Litauisk 4 0 2 0 1
Maltesisk 1 0 0 1 0
Polere 7 2 1 2 1
Portugisisk 19 6 1 1 0
Rumænsk 12 7 1 1 0
Slovakisk 2 0 0 1 0
Slovensk 5 1 0 0 0
spansk 29 19 4 5 2
Svensk 19 4 0 1 0
Andet Europa 19 11 3 3 2
Regionalt Europa 18 8 0 1 3
Flersproget 5 3 1 0 1
Sproguafhængig 9 3 16 2 1
Ikke anvendelig 2 0 2 1 0
Total 552 229 67 45 36

Det skal bemærkes, at engelsk ikke overraskende er det mest studerede sprog. For det andet kommer fransk og tysk, derefter italiensk og spansk.

Fremtid

LRE-kortet udvides til at omfatte LRE-journalen og andre konferencer.

Referencer

  1. Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 LREC-kortet over sprogressourcer og teknologier. LREC-2010, Malta
  2. http://www.resourcebook.eu (klik på linket "Statistik")
  3. FlaReNet Teknisk rapport, sprogressourcer og evaluering (LRE) Kort, Nicoletta Calzolari (CNR-ILC Pisa, Italien), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. eContentPlus-projekt [1]
  4. Nicoletta Calzolari, introduktion af konferencestolen LREC 2010
  5. Den 23. internationale konference om beregningslinguitik, Beijing, Kina [2]
  6. Empiriske metoder i naturlig sprogbehandling 9. - 11. oktober, MIT Stata Center, Cambridge, Massachusetts, USA [3]
  7. Nylige fremskridt inden for naturlig sprogbehandling 12. - 14. september, Hissar, Bulgarien [4]
  8. Sprogressourcer og evaluering, Istanbul, Turquey
  9. FLaReNet (Fortering Language Resources Network) er et EU-finansieret projekt, der skal udvikle en fælles vision for sprogressourcer og sprogteknologier i de næste år og fremme en europæisk strategi for konsolidering af sektoren og styrkelse af konkurrenceevnen i EU niveau og over hele verden.

Eksternt link