TF-IDF

Den TF-IDF ( term frekvens-reverse dokument frekvens ) er en vægtning metode anvendes ofte i oplysningerne forskning og især i tekst mining . Denne statistiske foranstaltning gør det muligt at evaluere vigtigheden af et udtryk indeholdt i et dokument i forhold til en samling eller et korpus . Vægten stiger i forhold til antallet af forekomster af ordet i dokumentet. Det varierer også efter hyppigheden af ordet i corpus. Varianter af den originale formel bruges ofte i søgemaskiner til at vurdere et dokuments relevans i henhold til brugerens søgekriterier.

Introduktion

Den a posteriori teoretiske begrundelse for denne vægtningsplan er baseret på den empiriske observation af ordfrekvensen i en tekst, der er givet i Zipfs lov . Hvis en forespørgsel indeholder udtrykket T , er det mere sandsynligt, at et dokument reagerer på det, hvis det indeholder dette udtryk: hyppigheden af udtrykket i dokumentet (TF) er højt. Ikke desto mindre, hvis udtrykket T i sig selv er meget hyppigt inden for korpuset, det vil sige, at det findes i mange dokumenter (såsom de definerede artikler - le, la, les ), er det faktisk ikke særlig diskriminerende. Dette er grunden til, at diagrammet foreslår at øge relevansen af et udtryk i henhold til dets sjældenhed inden i corpus: hyppigheden af udtrykket i corpus (IDF) er høj. Således øger tilstedeværelsen af en sjælden forespørgselsbetegnelse i indholdet af et dokument "score" for sidstnævnte.

Formel definition

Term frekvens

Den "rå" frekvens af et udtryk er simpelthen antallet af forekomster af dette udtryk i det betragtede dokument (man taler om "frekvens" ved misbrug af sprog). Vi kan vælge denne råfrekvens for at udtrykke hyppigheden af et udtryk.

Varianter er blevet foreslået. Et enklere valg, kaldet "binært", er at sætte 1, hvis udtrykket vises i dokumentet og 0 ellers. I modsætning hertil kan vi logaritmisk normalisere råfrekvensen for at dæmpe afvigelserne. En almindelig normalisering for at tage højde for dokumentlængde er at normalisere med den maksimale rå dokumentfrekvens.

TF varianter

Vægtningsordning	TF-formel
binær	${\ displaystyle {0,1}}$
rå frekvens	${\ displaystyle f_ {t, d}}$
logaritmisk normalisering	${\ displaystyle \ log (1 + f_ {t, d})}$
normalisering "0,5" med maks	${\ displaystyle 0.5 + 0.5 \ cdot {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}}$
normalisering med maks	${\ displaystyle K + (1-K) {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}}$

Omvendt dokumentfrekvens

Den omvendte dokumentfrekvens er et mål for betydningen af udtrykket i hele corpus. I TF-IDF-ordningen sigter den mod at lægge større vægt på de mindre hyppige vilkår, der anses for at være mere diskriminerende. Den består i beregning af logaritmen (i base 10 eller i base 2) af den inverse af andelen af dokumenter i corpus, der indeholder udtrykket:

${\ mathrm {idf_ {i}}} = \ log {\ frac {| D |} {| \ {d _ {{j}}: t _ {{i}} \ in d _ {{j}} \ } |}}$

eller:

$| D | ~$ : samlet antal dokumenter i corpus
$| \ {d _ {{j}}: t _ {{i}} \ in d _ {{j}} \} |$ : antal dokumenter, hvor udtrykket vises (dvs. ). $t _ {{i}}$ $n _ {{i, j}} \ neq 0$

Beregning af TF-IDF

Endelig opnås vægten ved at multiplicere de to målinger:

${\ mathrm {tfidf _ {{i, j}}}} = {\ mathrm {tf _ {{i, j}}}} \ cdot {\ mathrm {idf _ {{i}}}}$

Eksempel

Corpus (fra værker af Friedrich Gottlieb Klopstock )

Dokument 1	Dokument 2	Dokument 3
Hans navn fejres af den lund, der skalv, og den bæk, der murrer, vinde hersker, indtil den himmelske bue, den bue af nåde og trøst, som hans hånd rakte ud i skyerne.	Vi kunne næppe skelne mellem to mål i slutningen af stenbruddet: egetræer skyggefulde, palmer truede rundt om det andet i aftenens glød.	Ah! det gode vejr i mine poetiske værker! de smukke dage, som jeg tilbragte nær dig! Den første, uudtømmelig med glæde, fred og frihed; sidstnævnte, gennemsyret af en melankoli, som også havde sin charme.

Eksemplet vedrører dokument 1 (dvs. ), og udtrykket analyseret er "hvem" (dvs. = hvem). Tegnsætning og apostrof ignoreres. $d_1$ $t_1$

Beregning af TF

TF (t) = Antal udseende af udtryk t i dokumentet / Samlet antal udtryk i dokumentet

{\ mathrm {tf _ {{1,1}}}} = {\ frac {n _ {{1,1}}} {\ sum _ {k} n _ {{k, 1}}}} = { \ frac {2} {38}}

Beregningsoplysninger: de fleste udtryk vises en gang (21 termer), bue , de , og , le , les , par, og som vises to gange (7 termer), og l vises 3 gange (1 sigt). Nævneren er derfor 21 * 1 + 7 * 2 + 1 * 3 = 38. Denne sum svarer til antallet af ord i dokumentet.

Beregning af IDF

Udtrykket "hvem" vises ikke i det andet dokument. Så:

{\ mathrm {idf_ {1}}} = \ log {\ frac {| D |} {| \ {d _ {{j}}: t _ {{1}} \ in d _ {{j}} \ } |}} = \ log {\ frac {3} {2}}

Endelig vægt

Vi opnår:

{\ mathrm {tfidf _ {{1,1}}}} = {\ frac {2} {38}} \ cdot \ log {{\ frac {3} {2}}} \ ca. 0 {{,}} 0092

For andre dokumenter:

{\ mathrm {tfidf _ {{1,2}}}} = 0 \ cdot \ log {{\ frac {3} {2}}} = 0

{\ mathrm {tfidf _ {{1,3}}}} = {\ frac {1} {40}} \ cdot \ log {{\ frac {3} {2}}} \ ca. 0 {{,}} 0044

Det første dokument ser således ud til at være "det mest relevante".

Ansøgninger

Når man søger information , er det et spørgsmål om at bestille dem efter relevans, når et sæt potentielle dokumenter er identificeret som værende i stand til at svare på en anmodning. Vægten tf-idf anvendes derefter almindeligt til at fastlægge beskrivelsen af dokumenterne i en vektormodel , hvor ligheden opnås med en cosinusafstand mellem vektoren, der repræsenterer anmodningen, og hver af vektorerne, der er repræsentative for de potentielle dokumenter. Selvom hovedkvarter i 70'erne, varianten Okapi BM25 anses stadig (tidlig XXI th århundrede) som en af metoderne i den kendte teknik på dette område.

Bibliografi

(en) Karen Spärck Jones , " En statistisk fortolkning af udtryksspecificitet og dens anvendelse ved hentning " , Journal of Documentation , bind. 28, nr . 1,1972, s. 11–21 ( DOI 10.1108 / eb026526 , læs online )
(en) Gerard Salton og MJ McGill, Introduktion til moderne informationssøgning ,1983[ detaljer om udgaver ]

Noter og referencer

" Vector modeller " , på benhur.teluq.ca (adgang November 5, 2018 )
Tekster fra Friedrich Gottlieb Klopstock på Wikisource ( Constellations , the Two Muses og To Schmied, ode skrevet under en farlig sygdom ).

Se også

Relaterede artikler

eksterne links

Kursus om IR-modeller på webstedet Paris 13 University