Adresse | https://books.google.com/ngrams |
---|---|
Beskrivelse | Statistisk analysetjeneste |
Kommerciel | Ja |
Reklame | Ingen |
Sprog | Flersproget |
Hovedkontoret |
Mountain View USA |
Ejer | |
Lavet af | |
Start | Juni 2010 |
Nuværende tilstand | I aktivitet |
Ngram Viewer er et sprogprogram, der tilbydes afGoogle, der gør det muligt at observere udviklingen af hyppigheden af et eller flere ord eller grupper af ord over tid i trykte kilder. Værktøjet blev taget i brug i 2010. Den sidste opdatering var i februar 2020.
Udtrykket ngram betegner i denne sammenhæng en række “n” ord, hvilket er et specielt tilfælde af begrebet n-gram .
Googles Ngram-værktøj er baseret på Google Books tekstdatabase . Teksterne fra Google Books er klassificeret efter hyppigheden af ordsekvenser (kaldet ngrams ) efter udgivelsesår, hver ordsekvens tildeles derefter en "vægt".
Når brugeren anmoder om en sammenligning af flere ordsekvenser , tegner værktøjet kurver, der gør det muligt at sammenligne deres brugsfrekvens over tid.
Ngrams interesse er i det væsentlige at udføre historisk- sproglige eller socio-kulturelle studier, kendt som bodybuildere .
Værktøjet indeholder følgende grænser (især for fransk ). Før 1790 blev "s" i midten af ord stadig skrevet "ſ" (sagde lange s ), ufuldkomne "ay" blev skrevet "oit", og disse få små specificiteter samt en uregelmæssig typografi kompromitterer relevansen. OCR på værker af den XVI th århundrede XVIII th århundrede. Teamet i OCRization-projektet fra Nationalbiblioteket i Frankrig er således af den opfattelse, at man uden menneskelig indblanding i digitaliseringsprocessen ikke kan foretage pålidelige fuldtekstsøgninger i værker fra før 1800. Denne analyse er imidlertid siden blevet gennemgået: falske positive eller falske negativer repræsenterer ofte en lav procentdel sammenlignet med alle data. Derudover bruges Google Ngram til at skitsere tendenser i brugen af et udtryk og ikke til at give absolutte og præcise brugstal.
En anden fejl ligger i, at et lille redigeret værk vil være lige så repræsenteret som et vidt distribueret værk. Derudover kan hyppigheden af et ord i den samme tekst igen give for meget vægt på dette ord, især hvis det er sjældent.