Arkiwera

Illustration av figurer som bygger en webbplats

En introduktion till filformatet WARC

Kanske har du hört begreppet WARC nämnas i samband med webbarkivering och undrat vad det egentligen är? Har du kanske noterat i Arkiwera att det sedan i somras går att bevara sina webbplatser och sociala medier i WARC-formatet? 
I denna artikel berättar vi kort om detta format som är skapat just för att lagra arkiverade webbplatser och sociala medier. 

Introduktion

WARC står för Web ARChive och är ett filformat för att kombinera ett stort antal digitala resurser till en arkivfil, med tillhörande metadata och annan relaterad information. Formatet, som dokumenteras i ISO-standarden ISO 28500:2009, är framtaget av Internet Archive och medlemmarna i International Internet Preservation Consortium (IIPC) för att underlätta just insamlingen och bevarandet av webbplatser.

En WARC-fil innehåller en eller flera WARC-handlingar (WARC records). Varje handling/record innehåller en beskrivning av innehållet och själva handlingen. De filer som exempelvis html, gif och jpeg som har publicerats på en webbplats inkluderas också i WARC-filen.[1] 

För att titta på en WARC-fil behövs särskild mjukvara som exempelvis WayBack Machine, utvecklat av Internet Archive. Verktyget, som är öppen källkod/open source, kan laddas ned gratis.

WARC-formatet i Sverige

WARC-formatet används idag av ett stort antal institutioner över hela världen för att samla in och bevara webbplatser. I Sverige används formatet av bland annat Kungliga biblioteket och kommunalförbundet Sydarkivera. Riksarkivet tar däremot inte emot webbarkiveringar i filformatet WARC utan hänvisar i stället till HTML i bestämmelserna i RA-FS 2009:2.

För- och nackdelar

WARC har många fördelar när det kommer till att samla in webbplatser och beskriva dem. Hanteringen av metadata inom filen och de aggregerade filerna är utformade för att underlätta hanteringen och sökbarheten för webbplatserna. 

Några nackdelar är dock att de ingående filerna i WARC-arkiveringen kan vara svåra att bryta ut och hantera utanför arkivkopian. Konvertering av ingående filformat i en WARC-arkivering är därför mer komplext än vid insamling där kopian sparas i HTML-format. En annan nackdel är att man blir beroende av specifika verktyg, även om dessa är open source/öppen källkod, för att kunna titta på webbplatsen.

 

Fotografi, Magdalena Sjödahl

Vill du veta mer om hur du sparar dina webbplatser i WARC-formatet med hjälp av Arkiwera?

Hör gärna av dig till vår arkivarie och produktägare Magdalena, telefonnummer 076-050 01 43.