Udviklet af | Waikato University |
---|---|
Sidste version | 3.8.1 (23. januar 2017) |
Avanceret version | 3.9.1 (19. december 2016) |
Depositum | svn.cms.waikato.ac.nz/svn/weka |
Skrevet i | Java |
Operativ system | Microsoft Windows og platform |
Miljø | Java-platform |
Læs formater | Attribut-relation filformat ( d ) |
Sprog | Flersproget |
Type | Maskinlæring software struktur ( d ) |
Licens | GNU General Public License version 3 |
Internet side | www.cs.waikato.ac.nz/ml/weka/ |
Weka ( akronym for Waikato- miljø til videnanalyse , på fransk: " Waikato- miljø til videnanalyse ") er en softwarepakke til maskinindlæring skrevet i Java og udviklet ved University of Waikato i New Zealand . Weka er gratis software tilgængelig under GNU General Public License ( GPL ).
Weka-arbejdsområdet indeholder en samling visualiseringsværktøjer og algoritmer til dataanalyse og forudsigende modellering kombineret med en grafisk grænseflade for nem adgang til dets funktionalitet. Versionen af den "ikke-Java" originale Weka var en front-end i Tcl / Tk til modelleringsalgoritmer (for det meste tredje) implementeret i andre programmeringssprog suppleret med kommercielle præprocessordata i C og et makefile- baseret system til initiering af maskine læringsoplevelser. Denne originale version var primært beregnet som et værktøj til analyse af landbrugsdata, men den nyere version helt baseret på Java (Weka 3), som udviklingen startede i 1997, bruges nu i mange forskellige anvendelsesområder. Især til uddannelse og forskning . De vigtigste styrker ved Weka er, at han:
Weka understøtter adskillige standard data mining værktøjer , og især data preprocessorer , dataklynger , statistiske klassifikatorer , regressionsanalysatorer , visualiseringsværktøjer og diskriminerende analyseværktøjer . Alle Wekas teknikker er baseret på den antagelse, at dataene er tilgængelige i en enkelt flad fil eller binær relation , hvor hver type data er beskrevet af et fast antal attributter (almindelige, numeriske eller symbolske attributter, men et par andre. attributtyper understøttes også). Weka giver adgang til SQL- databaser ved hjælp af Java Database Connectivity (JDBC) og kan behandle resultatet af en SQL-forespørgsel. Det er ikke i stand til multi-relationel data mining, men der er software fra tredjepart til rådighed til at konvertere en samling af sammenkædede databasetabeller til en enkelt tabel, der er egnet til behandling af Weka. Et andet vigtigt område, der i øjeblikket ikke er dækket af de algoritmer, der er inkluderet i Weka-distributionen, er sekvensmodellering.
Weka's hovedgrænseflade er opdagelsesrejsende , men stort set den samme funktionalitet kan opnås gennem "vidensflow" -grænsefladen for hver komponent og fra kommandolinjen . Der er også eksperimentatoren, der tillader den systematiske (taksonomiske) sammenligning af den forudsigende ydeevne for Wekas maskinindlæringsalgoritmer på en samling datasæt.
Explorer- grænsefladen har flere faner, der giver adgang til hovedkomponenterne i arbejdsområdet. Fanen preprocessor har flere funktioner til at importere data fra databaser , en CSV- fil og til at forbehandle disse data med en algoritme kaldet filtrering . Disse filtre kan bruges til at transformere data (for eksempel omdanne reelle numeriske attributter til diskrete attributter) og gøre det muligt at slette forekomster og attributter i henhold til specifikke kriterier. Den klassificeringen fane tillader brugeren at anvende klassifikationer og regression algoritmer (flæng kaldet " classifiers " i Weka) til resulterende datasæt , at estimere nøjagtigheden af den prædiktive model, og for at se fejlagtige forudsigelser, ROC kurver , etc. eller selve modellen (hvis modellen er underlagt visualisering, f.eks. et beslutningstræ ). Fanen Associate giver adgang til læring ved tilknytningsregler, der forsøger at identificere alle de vigtige relationer mellem attributter i dataene. Fanen Klynge giver adgang til Wekas klyngeteknikker , såsom k-betyder-algoritmen . Der er også en implementering af forventnings-maksimeringsalgoritmen til træning af en blanding af normale distributioner . Fanen " Vælg attributter " indeholder algoritmer til identifikation af de mest forudsigelige attributter i et datasæt. Den sidste fane " Visualiser " viser en matrix med punktskyer , hvor individuelle punktskyer kan vælges og forstørres og yderligere analyseres ved hjælp af forskellige markeringsoperatorer.