Web -arkistointi

. , joka pitää itseään koko World Wide Webin arkistona. Monien maiden valtionarkistot ja kirjastot pyrkivät turvaamaan verkon tietueet alueellaan.

Vuodesta 1987 lähtien Saksan arkistolaki määritti digitaalisten asiakirjojen arkistoinnin valtion arkistojen pakolliseksi tehtäväksi, mutta tämän toimeksiannon täytäntöönpano on vasta alussa. Vuonna 2006 annettiin laki Saksan kansalliskirjastosta (DNBG), joka laajentaa Saksan kansalliskirjaston toimeksiantoa koskemaan verkkosivustojen arkistointia. Liittovaltiot suunnittelevat lakisääteistä talletustaan muuttaakseen -Gesetze tässä mielessä, tai muutos on jo tapahtunut.

Kohteiden arkistointi

Web -arkistoinnin tavoitteena on kartoittaa järjestelmällisesti tietty osa Internetissä saatavilla olevista web -läsnäoloista. Tätä varten on selvitettävä etukäteen yleinen keräyspolitiikka, valintamenettely ja arkistoinnin tiheys.

Arkistoitu verkkosivusto, jossa on kaikki multimediatoiminnot ( HTML -koodi , tyylisivut , JavaScript , kuvat ja video), on säilytettävä pitkällä aikavälillä. Metatietoja , kuten alkuperää , hankinta -aikaa, MIME -tyyppiä ja tietojen laajuutta, käytetään myöhempään kuvaamiseen, käyttöön ja säilyttämiseen . Metatiedot varmistavat digitaalisen arkistomateriaalin aitouden ja eheyden .

Hankinnan jälkeen on toteutettava teknisiä ja oikeudellisia varotoimia, jotta voidaan taata jatkuva julkinen saatavuus ja estää arkistomateriaalin myöhemmät muutokset.

Terminologia

Alkuperäinen resurssi
Alkuperäinen lähde, joka on tällä hetkellä tai sen pitäisi olla saatavilla Internetissä ja johon tarvitaan pääsy aiempaan tilaan.
Muisto
TimeGate
TimeMap

Valintaprosessi

Epäspesifinen
Tässä valintaprosessissa koko verkkotunnus kirjoitetaan vähitellen arkistoon. Suuren muistivaatimuksen vuoksi menettely toimii vain pienemmillä verkkotunnuksilla (netarkivet.dk).
valintalista
Lista laitoksista määritetään etukäteen. Toimielimiin liittyvien URL -osoitteiden vakaus on tarkistettava säännöllisesti.
Käyttötilastojen käyttö

Hyväksymismenetelmät

Etäkorjuu

Yleisin arkistointimenetelmä on käyttää indeksointirobottia . Verkkoindeksointi hakee verkkosivuston sisällön kuin käyttäjä ja kirjoittaa tulokset arkisto -objektiin. Tarkemmin sanottuna tämä tarkoittaa sivustojen rekursiivista hakua niiden linkkien perusteella, jotka alkavat tietystä aloitusalueesta, joka voi olla joko verkkosivusto tai luettelo verkkosivustoista, joista haetaan. Määrällisten rajoitusten vuoksi, esimerkiksi keston tai tallennustilan vuoksi, erilaiset syvyyden, toimialueen ja arkistoitavien tiedostojen rajoitukset (lopettamisolosuhteet) ovat mahdollisia.

Suuremmissa hankkeissa verkkosivustojen arviointi URL -osoitteen sijoittamiseksi on erityisen tärkeää. Indeksointiprosessin aikana voi kerätä suuren määrän Web -osoitteita, jotka sitten käsitellään joko luettelossa FIFO -menetelmää käyttäen tai ensisijaisena jonona . Jälkimmäisessä tapauksessa verkkosivustot voidaan kuvitella kasarakenteena. Jokainen verkkosivusto muodostaa oman kasan ja jokainen siinä oleva linkki toiselle verkkosivustolle muodostaa alikanavan, joka edustaa elementtiä edellisen verkkosivuston kasaan. Tästä on myös se etu, että jos URL -luettelo on täynnä, ne, joilla on alhaisin prioriteetti, korvataan ensin uusilla merkinnöillä.

Palvelimen alkuperäistä rakennetta voidaan kuitenkin harvoin toistaa tarkasti arkistossa. Jotta voidaan sulkea pois kaikki tekniset ongelmat, joita saattaa ilmetä peilauksen aikana, on suositeltavaa suorittaa verkkosivuston analyysi etukäteen. Vaikka tämä kaksinkertaistaa dataliikenteen useimmissa tapauksissa, se lyhentää huomattavasti työaikaa virheen sattuessa.

Esimerkkejä web -indeksointiroboteista ovat: