Den automatiske klassificering eller clustering er kategoriseringen algoritmer af objekter. Det består i at tildele en klasse eller kategori til hvert objekt (eller individ), der skal klassificeres, baseret på statistiske data. Det bruger ofte maskinlæring og bruges i vid udstrækning til mønstergenkendelse .
På fransk refererer klassificeringen til handlingen med at klassificere, derfor "at ranger i en klasse". Klassificering henviser til handlingen ved klassificering af "bestemmelse af klassificeringskriterier, definerende klasser". På engelsk svarer udtrykket klassifikation til den første betydning (klassifikation), mens den anden betydning snarere svarer til klyngedannelse .
Den fransktalende videnskabelige litteratur og den tilsvarende akademiske undervisning bruger ikke desto mindre udtrykket ”klassifikation”. Derefter skelnes der mellem "overvåget klassificering", der svarer til automatisk klassificering og "ikke-overvåget klassificering".
Vores begrænsede forståelsesmåde forpligter os til for at prøve at forstå noget i virkeligheden at klassificere de objekter, som vi skal behandle i kategorier . Disse er blevet overvejet af filosofien :
Automatisk klassificering sigter mod at oprette disse kategorier fra processer, der kun involverer dataene og ikke eksperimentatorens subjektivitet. Det ville også være mere nøjagtigt at sige: "ikke involverer eksperimentatorens subjektivitet ved andet end valget af de repræsentationer, han bruger": hvis vi klassificerer objekter efter deres største dimension, får vi ikke 'generelt ikke det samme rangordning som rangordning efter deres vægt.
Selvom de første baser i den algoritmiske tilgang til automatisk klassificering er relativt gamle, var det kun med udviklingen af datalogi, at det blev muligt at implementere dem på store dataprøver. Resultatet af en klassificering kan enten være en matematisk partition eller et hierarki (matematik) .
Blandt de forskellige metoder kan vi overveje to hovedtyper af tilgange.
De såkaldte ikke-parametriske tilgange ( hierarkisk klassificering , mobilcentremetode ) overvejer kun en enkelt hypotese: Jo tættere to individer er, jo mere sandsynligt er de at tilhøre samme klasse.
Den anden store familie af automatiske klassificeringsmetoder, kaldet probabilistisk, bruger en antagelse om fordelingen af enkeltpersoner, der skal klassificeres. For eksempel kan vi overveje, at individerne i hver af klasserne følger en normalfordeling . Problemet, som derefter opstår, er at bestemme, hvilke parametre der er i lovene (middel, varians), og til hvilke klasseindivider der mest sandsynligt hører til. En lovs parametre kan bestemmes på mange måder, herunder anvendelse af algoritmen til forventnings-maksimering .