Internetarkiv | |
Servere af spejlstedet opbevaret på Bibliotheca Alexandrina | |
Skabelse | 1996 |
---|---|
Grundlæggere | Se bestyrelsen |
Lovlig kontrakt | Organisation uden fortjeneste |
Slogan | Universel adgang til al viden |
Hovedkontoret | 300 Funston Avenue, Richmond District , San Francisco , Californien USA |
Retning | Julien masanes |
Aktivitet | Webarkivering og -bevaring |
Produkter | Cover Art Archive ( d ) |
Partnere | Digital Public Library of America |
Effektiv | 200 |
Internet side | archive.org |
Omsætning | 14.000.000 dollars (2015) |
Internet Archive (eller IA ) er en nonprofit organisation dedikeret til webarkivering, der også fungerer som et digitalt bibliotek . Disse elektroniske arkiver består af snapshots (kopier af sider taget på forskellige tidspunkter) af websider, software, film, bøger og lydoptagelser.
For at sikre stabiliteten og sikkerheden af arkiverede data opretholdes et fungerende spejlsted på Bibliotheca Alexandrina i Egypten . AI stiller sine samlinger til rådighed for forskere, historikere og akademikere gratis. Beliggende i Richmond District , syd for Presidio i San Francisco , er det medlem af American Library Association og er officielt anerkendt som et bibliotek af staten Californien .
Den webcrawler, der bruges af IA, er Heritrix , gratis software . Den gratis bogscanningssoftware er Scribe.
Internet Archive blev grundlagt i 1996 af Brewster Kahle . På grund af deres mål - bevarelse af menneskelig viden og tilgængeligheden af samlingerne for alle - sammenligner grundlæggerne af IA dette projekt med det ældre af biblioteket i Alexandria .
Den Wayback Machine er snapshot del af Web udviklet af Internet Archive . Wayback Machine blev oprettet af Brewster Kahle til at gemme og indeksere alt på nettet. Wayback-maskinen opdateres med indhold fra Alexa . Denne tjeneste giver brugerne mulighed for at se arkiverede versioner af websider over tid: det er "tredimensionelt indeks".
Snapshots er tilgængelige seks til tolv måneder efter optagelsen. Snapshot- frekvensen varierer, ikke alle webstedsopdateringer registreres, og intervaller på flere uger kan overholdes.
I 2006 indeholdt Wayback Machine næsten to petabyte data. Volumenet vokser med en hastighed på 20 terabyte pr. Måned, en stigning på to tredjedele fra de tolv terabyte pr. Måned, hvilket var vækstraten i 2003. Denne vækst er større end mængden af tekst indeholdt i de vigtigste biblioteker i verden, herunder kongresbiblioteket . I 2009 indeholdt Wayback Machine næsten tre petabyte data, og dens stigning var 100 terabyte pr. Måned. Dataene arkiveres i systemer fremstillet af Capricorne Technologies, Petabox-stativer.
Navnet " Wayback Machine " henviser til episoder af The Rocky and Bullwinkle Show , hvor Mr. Peabody, en professorhund og hans assistent Sherman (et menneskeligt kæledyr), bruger en tidsmaskine kaldet "WABAC Machine" til at beskrive berømte historiske begivenheder.
I 2015 ville Rusland fejlagtigt have blokeret hele Wayback Machine- webstedet .
Brugere, der ønsker at arkivere permanent og straks, kan deres data bruges på et abonnement, tjenesten Archive-It (en) IA. De indsamlede data indekseres periodisk af Wayback Machine . Idecember 2007, denne tjeneste havde oprettet mere end 230 millioner webadresser til 466 offentlige samlinger, herunder offentlige agenturer, universiteter og kulturinstitutioner.
Eksempel på organisationer eller institutioner, der deltager i Archive-It:
Ud over webarkiver opretholder Internet Archive-tjenester store samlinger af digitale medier, der enten er i det offentlige domæne eller licenseret til omfordeling, såsom Creative Commons-licenser . Medierne er organiseret i samlinger efter type (levende billeder, lyd, tekst osv.) Og i undersamlinger efter forskellige kriterier. Hver hovedsamling inkluderer en underundersamling fra Fællesskabet , hvor bidrag fra offentligheden kan arkiveres.
Dens samlinger inkluderer (fra 14. november 2007):
Bortset fra spillefilm inkluderer internetarkivets videosamling nyheder, tegneserieklassikere , pro- og antikrigspropaganda og mere kortvarigt materiale fra Prelinger-arkivet, såsom reklamer, uddannelses- og industrielle film og amatørfilmsamlinger.
Eksempler på samling:
Eksempel på en fransk film:
LydeLydsamlingen består af musik, lydbøger, nyhedsudsendelser, gamle radioprogrammer og en lang række andre lydfiler. Undersamlingen Live Music Archive indeholder 40.000 optagelser af koncerter af uafhængige kunstnere samt mere etablerede kunstnere og musikalsembler med mindre strenge regler for optagelse af koncerter som Grateful Dead .
TeksterDenne samling samler tekster fra Gutenberg-projektet , tekster fra forskellige biblioteker rundt om i verden samt en samling dokumenter og noter fra ARPANET . Med over 7 millioner bøger er internetarkivet det næststørste digitale bogbibliotek i verden efter Google Books. Alle dokumenter, der digitaliseres og placeres online af internetbrugere eller institutioner, overiseres og konverteres til EPUB-filer til e-læsere eller MOBI til Kindle og nyder permanent arkivering på mange servere rundt om i verden (Californien, Egypten, Kina, Holland). Strømper osv. ).
Den Sainte-Geneviève Bibliotek er den første franske biblioteket til at deltage i projektet framarts 2010. I Frankrig, École des Ponts ParisTech (sidenAugust 2012), National Institute of Agricultural Research (siden januar 2015), Sciences Po Paris (siden juni 2015), Interuniversity Health Library (siden januar 2018), Universitetsbiblioteket for sprog og civilisationer (siden september 2019) og bibliotekerne i École normale supérieure (siden december 2020) deltager også.
Internet Archive er medlem af Open Content Alliance (in) og driver det åbne bibliotek, hvor mere end 200.000 digitaliserede bøger i det offentlige område er tilgængelige online og kan udskrives. Scribe Book Scanning System tjener dette formål.
Under coronavirus-pandemien stiller internetarkivet copyright-beskyttede bøger til rådighed for amerikanere, så de kan studere under indespærring. Flere forlag er uenige, og Internet Archive trækker adgangen til de pågældende bøger tilbage16. juni 2020. På trods af alt sagsøger forlagene webstedet, og en retssag er planlagt til 2021.
I slutningen af 2002 slettede internetarkivet forskellige steder, der var kritiske over for Scientology, identificeret af Wayback Machine. Fejlmeddelelsen siger, at det var som et resultat af en "anmodning fra ejeren af webstedet". Det blev senere afklaret, at advokater fra Scientology Kirken havde krævet fjernelse uden nogen juridisk grund, og at ejerne af disse websteder ikke ønskede, at deres sider skulle fjernes.
I oktober 2004, i en sag kaldet " Telewizja Polska SA vs Echostar Satellite ", forsøger en advokat at bruge arkiverne på Wayback Machine som en kilde til tilladte beviser, sandsynligvis for første gang.
Telewizja Polska er udbyder af TVP Polonia og EchoStar, der driver Dish Network . Forud for retssagen sagde EchoStar, at den havde til hensigt at bruge snapshots fra Wayback Machine som bevis for tidligere indhold fra Telewizja Polska-webstedet. Telewizja Polska indgav en bevægelse indledningsvis (i) at fjerne justifiants skud af rygter og ikke-godkendt kilde, men dommeren Arlander nøgler afviste Telewizja Polska påstande og nægtede at udelukke bevis under retssagen. På retssagstidspunktet omstillede dommer Ronald Guzman imidlertid i første instans dommer Keys 'konklusioner og konkluderede, at hverken internetarkivet eller de underliggende sider (dvs. Telewizja Polska-siden) ikke var tilladt som bevis. Dommer Guzman fastslog, at udskrivning af en webside ikke var bevis på, at oplysningerne blev godkendt.
Healthcare Advocates, Inc.I 2003 blev Healthcare Advocates, Inc. anklaget for en varemærkekrænkelsessag. Anklagemyndigheden forsøgte at bruge arkiveret internetmateriale, der var tilgængeligt via internetarkivet. Efter at have mistet denne retssag, forsøgte virksomheden at sagsøge Internet Archive for overtrædelse af DMCA og Computersvindel og -misbrugsloven . De hævdede, at da de installerede en robots.txt- fil på deres websted, skulle den have været undgået af AI-bot. Den første klage blev indgivet den26. juni 2003, og de tilføjede robots.txt-filen, den 8. juli 2003, de sider, der skal trækkes tilbage med tilbagevirkende kraft. Retssagen blev afgjort uden for retten.
Robots.txt bruges som en del af Robots Exclusion Standard , en frivillig standard, som IA anvender, der forbyder robotter at indeksere visse sider markeret af skaberen som uden for grænserne. Som et resultat har AI fjernet et antal websteder, der nu er utilgængelige via Wayback Machine. Dette skyldes undertiden en ny ejer, der placerede en robots.txt-fil, der forbyder indeksering af webstedet. Administratorer siger, at de arbejder på et system, der giver adgang til tidligere arkiver, mens de ekskluderer elementer, der er oprettet efter tilføjelse af filen.
I 2006 anvendte IA Robots.txt-reglen med tilbagevirkende kraft. Hvis et websted blokerer IA, som Healthcare Advocates, slettes også sider, der tidligere er arkiveret fra dette domæne. I tilfælde af blokerede websteder arkiveres kun robots.txt-filen. Denne praksis ser ud til at være skadelig for forskere, der har fået adgang til oplysninger, der tidligere var tilgængelige.
Imidlertid siger IA også, at ”nogle gange kontakter en webstedsejer os direkte og beder os om at stoppe indeksering eller arkivering af et websted. Vi imødekommer disse anmodninger. De forklarede også, at "Internetarkivet ikke er interesseret i at bevare eller give adgang til websteder eller andet internetmateriale, der ejes af folk, der ikke ønsker, at deres materiale arkiveres . "
PatentretDen United States Patent Office og, med forbehold af yderligere krav er opfyldt (fx give en officiel erklæring fra arkivar), det vil Europæiske Patentmyndighed acceptere en stammer fra Internet Archive som bevis for offentliggørelsen af en webside. Disse datoer bruges til at bestemme, om en webside er tilgængelig før f.eks. Indgivelsesdatoen for en patentansøgning.
I november 2005, er den gratis download af Grateful Dead- koncerter fjernet fra siden. John Perry Barlow identificerede Bob Weir , Mickey Hart og Bill Kreutzmann som tilskyndere til denne ændring. Det30. november, et indlæg på Brewster Kahles forum opsummerede, hvad der ser ud til at være det kompromis, der er opnået mellem bandmedlemmerne. Live- koncerter kan downloades eller lyttes til, og optagelser er kun tilgængelige for lytning. Koncerter er siden blevet tilføjet.
Suzanne ShellDet 12. december 2005, hævdede aktivisten Suzanne Shell (in) summen af 100.000 dollars til arkivering af sit websted "profane-justice.org" mellem 1999 og 2004.20. januar 2006, Internetarkivet indgav en erklærende domstolshandling i det nordlige Californien-distrikt og bad retten om at konstatere, at IA ikke overtrådte Shells copyright.
Shell svarede og indgav endnu en klage mod IA for arkivering af sit websted med påstand om overtrædelse af dets servicevilkår. Det13. februar 2007, afviste en distriktsdommer i Colorado alle krav undtagen misligholdelse af kontrakten.
Det 25. april 2007, IA og Shell har i fællesskab meddelt bilæggelse af deres tvist. IA sagde, ”Internetarkivet har ingen interesse i at lægge information i Wayback Machine for mennesker, der ikke ønsker at se deres arkiverede webindhold. Vi anerkender, at M me Shell har en gyldig ophavsret og gælder på sit websted, og vi beklager, at registrering af dets site i Wayback Machine har resulteret i denne retssag. Vi er glade for at have denne sag bag os. " Shell sagde: " Jeg respekterer målsætningen og den historiske værdi af Internet Archive. Jeg havde aldrig til hensigt at blande mig i dette mål eller forårsage nogen skade. "
Ophavsretssituation i EuropaI Europa kan Wayback Machine undertiden overtræde lovgivningen om ophavsret. Kun skaberen kan bestemme, hvor indholdet offentliggøres eller gengives, siderne skal fjernes fra arkiverne efter skabers anmodning.
I Europa er det europæiske internetarkiv en konkurrent.