En introduktion till filformatet WARC

Dela artikel

Kanske har du hört begreppet WARC nämnas i samband med webbarkivering och undrat vad det egentligen är? Eller har du noterat i Arkiwera att det sedan i somras går att bevara sina webbplatser och sociala medier i WARC-formatet? I denna artikel berättar vi kort om detta format som är skapat just för att lagra arkiverade webbplatser och sociala medier.

WARC står för Web ARChive och är ett filformat för att kombinera ett stort antal digitala resurser till en arkivfil, med tillhörande metadata och annan relaterad information. Formatet, som dokumenteras i ISO-standarden ISO 28500:2009, är framtaget av Internet Archive och medlemmarna i International Internet Preservation Consortium (IIPC) för att underlätta just insamlingen och bevarandet av webbplatser.

En WARC-fil innehåller en eller flera WARC-handlingar (WARC records). Varje handling/record innehåller en beskrivning av innehållet och själva handlingen. De filer som exempelvis html, gif och jpeg som har publicerats på en webbplats inkluderas också i WARC-filen.[1] 

För att titta på en WARC-fil behövs särskild mjukvara som exempelvis WayBack Machine, utvecklat av Internet Archive. Verktyget, som är öppen källkod/open source, kan laddas ned gratis.

WARC-formatet används idag av ett stort antal institutioner över hela världen för att samla in och bevara webbplatser. I Sverige används formatet av bland annat Kungliga biblioteket och kommunalförbundet Sydarkivera. Riksarkivet tar däremot inte emot webbarkiveringar i filformatet WARC utan hänvisar i stället till HTML i bestämmelserna i RA-FS 2009:2.

WARC har många fördelar när det kommer till att samla in webbplatser och beskriva dem. Hanteringen av metadata inom filen och de aggregerade filerna är utformade för att underlätta hanteringen och sökbarheten för webbplatserna. Några nackdelar är dock att de ingående filerna i WARC-arkiveringen kan vara svåra att bryta ut och hantera utanför arkivkopian. Konvertering av ingående filformat i en WARC-arkivering är därför mer komplext än vid insamling där kopian sparas i HTML-format. En annan nackdel är att man blir beroende av specifika verktyg, även om dessa är open source/öppen källkod, för att kunna titta på webbplatsen.

[1]. https://www.loc.gov/preservation/digital/formats/fdd/fdd000236.shtml (2023-11-13).

Prenumerera på nyheter från oss.

Få en notifiering när vi uppdaterar.

Fler nyheter från Arkiwera

Illustration av data som flödar på en skärm. I hörnet en "ordförandeklubba".
Event

Vad måste man egentligen? – lunchwebbinarium den 19 november

Vad väntar i er organisation under år 2026? Kommer året präglas av att det är valår eller har ni ett stort verksamhetsutvecklingsprojekt inplanerat? Kanske står att utreda frågan om digitalt bevarande på agendan? Att säkra sin digitala information behöver inte vara rymdforskning. Det finns olika verktyg att ta hjälp av.

Ikoner, 2 kyrkor och ikoner för informationshantering
Event

För dig som arbetar med informationshantering i Svenska kyrkan: Inbjudan till gratis lunchwebbinarium, anordnat av Arkiwera och ArkivIT

Välkommen till ett lunchwebbinarium om två aktuella frågor inom informationshanteringsområdet. Datum: onsdagen den 8 oktober, 2025  Tider: Kl. 12.00 – 12.45 Plats:  Online / Teams Målgrupp: Medarbetare inom Svenska kyrkan som arbetar med informationshantering (arkiv, registrering / diarieföring, administration men också kommunikation). Givetvis är du som jobbar i andra organisationer och har andra titlar välkommen