Automatisk klassificering

Den automatiske klassificering eller clustering er kategoriseringen algoritmer af objekter. Det består i at tildele en klasse eller kategori til hvert objekt (eller individ), der skal klassificeres, baseret på statistiske data. Det bruger ofte maskinlæring og bruges i vid udstrækning til mønstergenkendelse .

Terminologi

På fransk refererer klassificeringen til handlingen med at klassificere, derfor "at ranger i en klasse". Klassificering henviser til handlingen ved klassificering af "bestemmelse af klassificeringskriterier, definerende klasser". På engelsk svarer udtrykket klassifikation til den første betydning (klassifikation), mens den anden betydning snarere svarer til klyngedannelse .

Den fransktalende videnskabelige litteratur og den tilsvarende akademiske undervisning bruger ikke desto mindre udtrykket ”klassifikation”. Derefter skelnes der mellem "overvåget klassificering", der svarer til automatisk klassificering og "ikke-overvåget klassificering".

Fundamenter

Vores begrænsede forståelsesmåde forpligter os til for at prøve at forstå noget i virkeligheden at klassificere de objekter, som vi skal behandle i kategorier . Disse er blevet overvejet af filosofien  :

Automatisk klassificering sigter mod at oprette disse kategorier fra processer, der kun involverer dataene og ikke eksperimentatorens subjektivitet. Det ville også være mere nøjagtigt at sige: "ikke involverer eksperimentatorens subjektivitet ved andet end valget af de repræsentationer, han bruger": hvis vi klassificerer objekter efter deres største dimension, får vi ikke 'generelt ikke det samme rangordning som rangordning efter deres vægt.

Selvom de første baser i den algoritmiske tilgang til automatisk klassificering er relativt gamle, var det kun med udviklingen af ​​datalogi, at det blev muligt at implementere dem på store dataprøver. Resultatet af en klassificering kan enten være en matematisk partition eller et hierarki (matematik) .

Metoder

Blandt de forskellige metoder kan vi overveje to hovedtyper af tilgange.

Ikke parametrisk

De såkaldte ikke-parametriske tilgange ( hierarkisk klassificering , mobilcentremetode ) overvejer kun en enkelt hypotese: Jo tættere to individer er, jo mere sandsynligt er de at tilhøre samme klasse.

Probabilistisk

Den anden store familie af automatiske klassificeringsmetoder, kaldet probabilistisk, bruger en antagelse om fordelingen af ​​enkeltpersoner, der skal klassificeres. For eksempel kan vi overveje, at individerne i hver af klasserne følger en normalfordeling . Problemet, som derefter opstår, er at bestemme, hvilke parametre der er i lovene (middel, varians), og til hvilke klasseindivider der mest sandsynligt hører til. En lovs parametre kan bestemmes på mange måder, herunder anvendelse af algoritmen til forventnings-maksimering .

Relaterede artikler

Noter og referencer

  1. sproglig fejlfindingsbank på kontoret for Quebec-kontoret i det franske sprog
  2. kursus
  3. KlassificeringENSSIB-webstedet
  4. Yves Lechevallier, kursus Overvågede klassificeringsmetoder: segmenteringsmetoder eller beslutningstræer , Master ISI, Université Paris-Dauphine og Agro ParisTech