En søgemaskine er en webapplikation, der tillader en bruger at udføre en onlinesøgning (eller internetsøgning ), det vil sige at finde ressourcer fra en forespørgsel, der består af termer. Ressourcerne kan være især websider , emnerne i fora Usenet , billederne , videoerne , filerne , bøgerne, uddannelsesstederne, applikationerne fra open source-software .
I princippet arbejder de generelt:
Nogle websteder tilbyder en søgemaskine som hovedfunktionalitet; selve webstedet kaldes derefter "søgemaskine". De er forskningsværktøjer på nettet uden menneskelig indblanding, hvilket adskiller dem fra mapper . De er baseret på " robotter ", også kaldet " bots ", " edderkopper ", " crawlere " eller "agenter", der automatisk gennemsøger webstederne med jævne mellemrum for at opdage nye adresser ( URL'er ). De følger de hyperlinks, der forbinder siderne med hinanden, den ene efter den anden. Hver identificeret side indekseres derefter i en database , som internetbrugere derefter kan få adgang til ved hjælp af nøgleord .
Det er gennem sprogbrug, vi også kalder "søgemaskiner" -websteder, der tilbyder webstedsmapper: i dette tilfælde er de forskningsværktøjer, der er udviklet af folk, der lister og klassificerer websteder, der anses for værdige. Af interesse, ikke webcrawlere.
Søgemaskiner gælder ikke kun for Internettet: nogle søgemaskiner er software, der er installeret på en personlig computer . Dette er såkaldte “desktop” -motorer, der kombinerer søgning blandt filer, der er gemt på pc'en, og søgning på websteder - for eksempel Copernic Desktop Search, Windex Server osv.
Der er også metasøgemaskiner , det vil sige websteder, hvor den samme søgning startes samtidigt på flere søgemaskiner, hvor resultaterne derefter flettes for at blive præsenteret for internetbrugeren .
Internetsøgemaskiner forud for begyndelsen af Internettet i slutningen af 1990:
Søgemaskiner er inspireret af dokumenthentningsværktøjer ( inverterede filbaserede , aka index-filer ), der er brugt på mainframes siden 1970'erne, såsom STAIRS-software på IBM . Metoden til at udfylde deres databaser er dog forskellig, da den er netværksorienteret . Derudover findes der ikke længere en skelnen mellem formaterede data (“felter”) og fritekst, selvom den siden 2010 er begyndt at genindføre sig selv via det semantiske web .
Historiske motorer har været Lycos (1994), Altavista (1995, den første 64-bit motor) og Backrub (1997), forfader til Google .
Funktionen af en søgemaskine som ethvert forskningsværktøj kan opdeles i tre hovedprocesser:
Supplerende moduler bruges ofte sammen med de tre grundlæggende byggesten i søgemaskinen. De mest berømte er følgende:
Stavekontrollen: | Lemmatizer: | Anti-ordbogen: |
---|---|---|
Det gør det muligt at rette de introducerede fejl
med ordene i anmodningen og sørg for at deres relevans ved at tage hensyn til deres kanonisk form. |
Det giver mulighed for at reducere
søgeord til deres lemma for dermed udvide deres forskningsomfang.
|
Det bruges til at fjerne alt
"tomme" ord (såsom "af", "den", "den") som ikke er diskriminerende, og som forstyrrer søgescore ved at indføre støj . Sletningen sker i indekset og i anmodningerne. |
For at optimere søgemaskiner indsætter webmastere meta - elementer (metatags) i websider i HTML - overskriften (head). Disse oplysninger gør det muligt at optimere søgninger efter information på websteder .
Websteder, der primært tjener forskning, finansieres af salg af teknologi og reklame.
Reklamefinansiering består i at præsentere reklamer, der svarer til de ord, som den besøgende søger. Annoncøren køber nøgleord: for eksempel kan et rejsebureau købe nøgleord som "ferie", "hotel" og "strand" eller "Cannes", "Antibes" og "Nice", hvis det er specialiseret i denne region. Dette køb gør det muligt at opnå en henvisning kaldet "betalt henvisning", der skelnes fra henvisning kaldet "naturlig henvisning".
Søgemaskinen kan vise reklamen på to måder: som en separat indsats eller som en del af søgeresultaterne. For den besøgende ligner den separate indsats en klassisk annonce. Integration i resultaterne er på den anden side til skade for resultaternes relevans og kan have negative konsekvenser for motorens opfattede kvalitet. På grund af dette sælger ikke alle motorer en investering i resultater.
Søgemaskiner er et økonomisk spørgsmål. Aktiemarkedsværdien af Alphabet holdingselskabet, der ejes af Google , den største søgemaskine, var 831 mia. $ I april 2020.
Betydningen af de økonomiske indsatser skabte teknikker til uærlig omdirigering af søgemaskinerne for at opnå "naturlig" henvisning, spamdexing (voldelig henvisning på fransk).
De mest populære spamdexing- teknikker er:
De voldelige referenceteknikker jages af udgivere af søgemaskiner, der udgør sorte lister, foreløbige eller endelige.
Vi skelner spamdexing , uærlig omdirigering fra "SEO", søgemaskineoptimering ( optimering til søgemaskiner på fransk). SEO-teknikker markedsføres af specialiserede virksomheder.
Store organisationer (virksomheder, administrationer) har generelt et stort antal IT-ressourcer i et stort intranet . Da deres ressourcer ikke er tilgængelige fra Internettet , er de ikke dækket af websøgemaskiner. De skal derfor installere deres egen motor, hvis de vil søge i deres ressourcer. De udgør derfor et marked for søgemaskineudviklere. Dette kaldes en virksomheds søgemaskine (se nedenfor).
Det sker også, at offentlige websteder bruger tjenester fra en søgemaskine til at udvide deres tilbud. Dette kaldes "SiteSearch". Denne software tillader søgning efter indhold i en eller flere grupper af websteder. Disse teknologier bruges især på indholdssider og onlinesalgssider. Særlige ved disse værktøjer er ofte kompleksiteten i implementeringen og de nødvendige tekniske ressourcer til rådighed.
Store portaler kan også udnytte søgemaskinteknologi. Så Yahoo! , en webkatalogspecialist , brugte Google- teknologi til søgning i et par år, indtil den lancerede sin egen søgemaskine Yahoo Search Technology i 2004, hvis fundament kom fra Altavista, Inktomi og Overture, firmaets grundlæggere af søgemaskiner og erhvervet af Yahoo! .
Flere og flere indholdsproducenter, der følger W3C- anbefalinger på det semantiske web , indekserer deres databaser med metadata eller taksonomier ( ontologier ) for at give søgemaskiner mulighed for at tilpasse sig semantiske analyser .
Disse former for forskning og analyse af informationscorpus via computer er stadig kun potentialer.
Sammenlignet med søgninger i fuldtekst skal søgninger udført på det semantiske web være mere brugervenlige:
Strengt taget er der endnu ikke en semantisk søgemaskine, der gør det muligt at forstå et spørgsmål på et naturligt sprog og tilpasse et svar i henhold til de fundne resultater.
Der er dog nogle forsøg på at finde et mellemliggende svar på denne problematiske betydning i søgningen efter information:
Den gradvise opgivelse af trykte mapper får brugerne til at udføre de samme søgninger på Internettet "profession + lokalitet". Google erhvervede derfor i 2010 en fil af virksomheder (for Frankrig og et vist antal lande) for at udføre en blanding af web- og katalogdata , når anmodningerne svarer til en lokaliseret aktivitet. Denne nye tendens bekræftes af de vigtigste søgemaskiner, og nye "blandede værktøjer" dukker op. Yandex og Baidu har endnu ikke vedtaget denne blandingsmodel.
Ifølge en undersøgelse foretaget af McKinsey & Co havde kun 65% af franske SMV'er en tilstedeværelse på Internettet i 2013. Ifølge en anden undersøgelse når denne andel 72% for de liberale erhverv (advokater, tandlæger, læger, notar, fogeder, sygeplejersker osv.).
Søgemaskiner, der pr. Definition kun indsamler data fra Internettet, var derfor forpligtet til at erhverve og tilbyde disse biblioteksadresser ud over at tilfredsstille internetbrugernes søgning efter adresser. Google døbte disse adresser "Google-adresser" og skiftede derefter automatisk til "Google +", i øjeblikket " Google My Business ". Bing- og Google- søgemaskiner kommunikerer ikke oprindelsen af disse integrerede virksomhedsfiler undtagen Yahoo! som er i partnerskab med Pages Jaunes .
Frankrig | Tyskland | Canada | Forenede Stater | Mexico | Brasilien | Marokko | |
---|---|---|---|---|---|---|---|
94,21% | 94,54% | 92,38% | 84,8% | 94,9% | 97,35% | 97,31% | |
Bing | 2,95% | 2,89% | 4,31% | 5,59% | 3,36% | 1,32% | 1,79% |
Yahoo | 1,53% | 0,84% | 2,33% | 8,35% | 1,51% | 1,18% | 0,71% |
Qwant | 0,7% | ||||||
DuckDuckGo | 0,25% | 0,67% | 0,73% | 1,01% | 0,09% | 0,01% | 0,08% |
Msn | 0,1% | 0,08% | 0,1% | 0,02% | |||
Yandex | 0,03% |
De metasearch motorer er søgeværktøjer at forespørgslen flere søgemaskiner på samme tid og skærm til brugeren en relevant syntese.
Eksempler: Startpages , Searx , søger og Lilo , Framabee .
Udtrykket " multi-engine (en) " (eller mere sjældent, "super engine") betegner en webside, der tilbyder en eller flere former, der gør det muligt at forespørge på flere motorer. Det kan også (men mere sjældent) være en software, en funktion eller et webbrowser- plugin eller en værktøjslinje ...
Valget af en af motorerne kan ske ved hjælp af knap , radioknap , fane , rulleliste eller andet.
De første sider af denne type kopierede formkoden til flere motorer. Med fremkomsten af JavaScript blev det kun muligt at have en formular.
Vi kan citere for eksempel Creative Commons Søg , Ecosia , Afbryd , Maxthon s søgen motor , HooSeek (lukket i 2012).
Udtrykket "solidaritetssøgemaskine" bruges til at betegne en motor, der donerer en del af sin indkomst til økologiske, sociale eller humanitære formål. Disse motorer stammer fra observationen om, at de årlige indtægter, der genereres ved reklame på søgemaskiner, er ret betydelige (omkring $ 45 pr. Bruger for Google). Solidaritetssøgemaskiner skiller sig især ud i den måde, de fordeler den genererede indkomst på. Nogle motorer som Ecosia donerer derefter en del af indkomsten til en enkelt sag, mens motorer som Lilo tillader internetbrugere at vælge, hvilke projekter de skal finansiere.
Se listen over solidaritetssøgemaskiner.
Udtrykket "lodrette motorer" betegner en webside eller en multimedietjeneste, der tilbyder specialiseret forskning inden for et professionelt område, eller som er særligt målrettet. Dette forskningsværktøj er specialiseret i en bestemt sektor, såsom telekommunikation, lovgivning, bioteknologi, finansiering (forsikring) eller endda fast ejendom. Dens generelle drift er baseret på en database, der består af databaser på alle de specialiserede websteder for den målrettede aktivitet.
Denne type motor bruges af fagfolk og målrettet mod forbrugeren, ofte med et økonomisk formål, der stammer fra geolokalisering.
Der findes således kataloger og komparatorer for offentligheden. De er nu tilgængelige til alle aktiviteter: fast ejendom, turisme, jobsøgning, rekruttering, bil, fritid, spil.
Eksplosionen i antallet af indhold i forskellige formater (data, ustruktureret information, billeder, videoer osv.), Der er tilgængelige i virksomheder, skubber dem til at udstyre sig med en intern søgemaskine.
Ifølge en undersøgelse foretaget af MARKESS International i Februar 200849% af organisationer bruger allerede en virksomheds søgemaskine, og 18% planlægger at bruge den inden 2010. Disse søgemaskiner er for det meste integreret i arbejdsstationer eller elektroniske dokumentstyringsværktøjer , men de er i et voksende antal virksomheder, der er i stand til at dække begge interne og eksternt virksomhedsindhold eller integreret i indholdsstyringsværktøjer eller business intelligence-løsninger.
Blandt de spillere, der tilbyder virksomhedssøgemaskiner, er Google , Exalead , PolySpot eller OpenSearchServer .
Sproganalyseteknologier, såsom lemmatisering, navngivet enhedsudvinding, klassificering og klyngedannelse kan i høj grad forbedre søgemaskinernes funktion. Disse teknologier gør det muligt både at forbedre relevansen af resultaterne og at engagere internetbrugeren i en mere effektiv søgningsproces, som det er tilfældet med facetteret søgning .
I henhold til ADEME - undersøgelsen "Internet, e - mails, reducerende virkninger" offentliggjort iFebruar 2014Gå direkte til adressen på et websted eller ved at indtaste adressen i browseren, enten ved at få det registreret som "favorit" (snarere end at søge på webstedet via en søgemaskine) divideret med 4 emissioner drivhusgasser .