Den TF-IDF ( term frekvens-reverse dokument frekvens ) er en vægtning metode anvendes ofte i oplysningerne forskning og især i tekst mining . Denne statistiske foranstaltning gør det muligt at evaluere vigtigheden af et udtryk indeholdt i et dokument i forhold til en samling eller et korpus . Vægten stiger i forhold til antallet af forekomster af ordet i dokumentet. Det varierer også efter hyppigheden af ordet i corpus. Varianter af den originale formel bruges ofte i søgemaskiner til at vurdere et dokuments relevans i henhold til brugerens søgekriterier.
Den a posteriori teoretiske begrundelse for denne vægtningsplan er baseret på den empiriske observation af ordfrekvensen i en tekst, der er givet i Zipfs lov . Hvis en forespørgsel indeholder udtrykket T , er det mere sandsynligt, at et dokument reagerer på det, hvis det indeholder dette udtryk: hyppigheden af udtrykket i dokumentet (TF) er højt. Ikke desto mindre, hvis udtrykket T i sig selv er meget hyppigt inden for korpuset, det vil sige, at det findes i mange dokumenter (såsom de definerede artikler - le, la, les ), er det faktisk ikke særlig diskriminerende. Dette er grunden til, at diagrammet foreslår at øge relevansen af et udtryk i henhold til dets sjældenhed inden i corpus: hyppigheden af udtrykket i corpus (IDF) er høj. Således øger tilstedeværelsen af en sjælden forespørgselsbetegnelse i indholdet af et dokument "score" for sidstnævnte.
Den "rå" frekvens af et udtryk er simpelthen antallet af forekomster af dette udtryk i det betragtede dokument (man taler om "frekvens" ved misbrug af sprog). Vi kan vælge denne råfrekvens for at udtrykke hyppigheden af et udtryk.
Varianter er blevet foreslået. Et enklere valg, kaldet "binært", er at sætte 1, hvis udtrykket vises i dokumentet og 0 ellers. I modsætning hertil kan vi logaritmisk normalisere råfrekvensen for at dæmpe afvigelserne. En almindelig normalisering for at tage højde for dokumentlængde er at normalisere med den maksimale rå dokumentfrekvens.
Vægtningsordning | TF-formel |
---|---|
binær | |
rå frekvens | |
logaritmisk normalisering | |
normalisering "0,5" med maks | |
normalisering med maks |
Den omvendte dokumentfrekvens er et mål for betydningen af udtrykket i hele corpus. I TF-IDF-ordningen sigter den mod at lægge større vægt på de mindre hyppige vilkår, der anses for at være mere diskriminerende. Den består i beregning af logaritmen (i base 10 eller i base 2) af den inverse af andelen af dokumenter i corpus, der indeholder udtrykket:
eller:
Endelig opnås vægten ved at multiplicere de to målinger:
Dokument 1 | Dokument 2 | Dokument 3 |
---|---|---|
Hans navn fejres af den lund, der skalv, og den bæk, der murrer, vinde hersker, indtil den himmelske bue, den bue af nåde og trøst, som hans hånd rakte ud i skyerne. | Vi kunne næppe skelne mellem to mål i slutningen af stenbruddet: egetræer skyggefulde, palmer truede rundt om det andet i aftenens glød. | Ah! det gode vejr i mine poetiske værker! de smukke dage, som jeg tilbragte nær dig! Den første, uudtømmelig med glæde, fred og frihed; sidstnævnte, gennemsyret af en melankoli, som også havde sin charme. |
Eksemplet vedrører dokument 1 (dvs. ), og udtrykket analyseret er "hvem" (dvs. = hvem). Tegnsætning og apostrof ignoreres.
TF (t) = Antal udseende af udtryk t i dokumentet / Samlet antal udtryk i dokumentet
Beregningsoplysninger: de fleste udtryk vises en gang (21 termer), bue , de , og , le , les , par, og som vises to gange (7 termer), og l vises 3 gange (1 sigt). Nævneren er derfor 21 * 1 + 7 * 2 + 1 * 3 = 38. Denne sum svarer til antallet af ord i dokumentet.
Udtrykket "hvem" vises ikke i det andet dokument. Så:
Vi opnår:
For andre dokumenter:
Det første dokument ser således ud til at være "det mest relevante".
Når man søger information , er det et spørgsmål om at bestille dem efter relevans, når et sæt potentielle dokumenter er identificeret som værende i stand til at svare på en anmodning. Vægten tf-idf anvendes derefter almindeligt til at fastlægge beskrivelsen af dokumenterne i en vektormodel , hvor ligheden opnås med en cosinusafstand mellem vektoren, der repræsenterer anmodningen, og hver af vektorerne, der er repræsentative for de potentielle dokumenter. Selvom hovedkvarter i 70'erne, varianten Okapi BM25 anses stadig (tidlig XXI th århundrede) som en af metoderne i den kendte teknik på dette område.