Kanske har du hört begreppet WARC nämnas i samband med webbarkivering och undrat vad det egentligen är? Eller har du noterat i Arkiwera att det sedan i somras går att bevara sina webbplatser och sociala medier i WARC-formatet? I denna artikel berättar vi kort om detta format som är skapat just för att lagra arkiverade webbplatser och sociala medier.
WARC står för Web ARChive och är ett filformat för att kombinera ett stort antal digitala resurser till en arkivfil, med tillhörande metadata och annan relaterad information. Formatet, som dokumenteras i ISO-standarden ISO 28500:2009, är framtaget av Internet Archive och medlemmarna i International Internet Preservation Consortium (IIPC) för att underlätta just insamlingen och bevarandet av webbplatser.
En WARC-fil innehåller en eller flera WARC-handlingar (WARC records). Varje handling/record innehåller en beskrivning av innehållet och själva handlingen. De filer som exempelvis html, gif och jpeg som har publicerats på en webbplats inkluderas också i WARC-filen.[1]
För att titta på en WARC-fil behövs särskild mjukvara som exempelvis WayBack Machine, utvecklat av Internet Archive. Verktyget, som är öppen källkod/open source, kan laddas ned gratis.
WARC-formatet används idag av ett stort antal institutioner över hela världen för att samla in och bevara webbplatser. I Sverige används formatet av bland annat Kungliga biblioteket och kommunalförbundet Sydarkivera. Riksarkivet tar däremot inte emot webbarkiveringar i filformatet WARC utan hänvisar i stället till HTML i bestämmelserna i RA-FS 2009:2.
WARC har många fördelar när det kommer till att samla in webbplatser och beskriva dem. Hanteringen av metadata inom filen och de aggregerade filerna är utformade för att underlätta hanteringen och sökbarheten för webbplatserna. Några nackdelar är dock att de ingående filerna i WARC-arkiveringen kan vara svåra att bryta ut och hantera utanför arkivkopian. Konvertering av ingående filformat i en WARC-arkivering är därför mer komplext än vid insamling där kopian sparas i HTML-format. En annan nackdel är att man blir beroende av specifika verktyg, även om dessa är open source/öppen källkod, för att kunna titta på webbplatsen.
[1]. https://www.loc.gov/preservation/digital/formats/fdd/fdd000236.shtml (2023-11-13).