En introduktion till filformatet WARC

Dela artikel

Kanske har du hört begreppet WARC nämnas i samband med webbarkivering och undrat vad det egentligen är? Eller har du noterat i Arkiwera att det sedan i somras går att bevara sina webbplatser och sociala medier i WARC-formatet? I denna artikel berättar vi kort om detta format som är skapat just för att lagra arkiverade webbplatser och sociala medier.

WARC står för Web ARChive och är ett filformat för att kombinera ett stort antal digitala resurser till en arkivfil, med tillhörande metadata och annan relaterad information. Formatet, som dokumenteras i ISO-standarden ISO 28500:2009, är framtaget av Internet Archive och medlemmarna i International Internet Preservation Consortium (IIPC) för att underlätta just insamlingen och bevarandet av webbplatser.

En WARC-fil innehåller en eller flera WARC-handlingar (WARC records). Varje handling/record innehåller en beskrivning av innehållet och själva handlingen. De filer som exempelvis html, gif och jpeg som har publicerats på en webbplats inkluderas också i WARC-filen.[1] 

För att titta på en WARC-fil behövs särskild mjukvara som exempelvis WayBack Machine, utvecklat av Internet Archive. Verktyget, som är öppen källkod/open source, kan laddas ned gratis.

WARC-formatet används idag av ett stort antal institutioner över hela världen för att samla in och bevara webbplatser. I Sverige används formatet av bland annat Kungliga biblioteket och kommunalförbundet Sydarkivera. Riksarkivet tar däremot inte emot webbarkiveringar i filformatet WARC utan hänvisar i stället till HTML i bestämmelserna i RA-FS 2009:2.

WARC har många fördelar när det kommer till att samla in webbplatser och beskriva dem. Hanteringen av metadata inom filen och de aggregerade filerna är utformade för att underlätta hanteringen och sökbarheten för webbplatserna. Några nackdelar är dock att de ingående filerna i WARC-arkiveringen kan vara svåra att bryta ut och hantera utanför arkivkopian. Konvertering av ingående filformat i en WARC-arkivering är därför mer komplext än vid insamling där kopian sparas i HTML-format. En annan nackdel är att man blir beroende av specifika verktyg, även om dessa är open source/öppen källkod, för att kunna titta på webbplatsen.

[1]. https://www.loc.gov/preservation/digital/formats/fdd/fdd000236.shtml (2023-11-13).

Prenumerera på nyheter från oss.

Få en notifiering när vi uppdaterar.

Fler nyheter från Arkiwera

Ikoner, 2 kyrkor och ikoner för informationshantering
Event

För dig som arbetar med informationshantering i Svenska kyrkan: Inbjudan till gratis lunchwebbinarium, anordnat av Arkiwera och ArkivIT

Välkommen till ett lunchwebbinarium om två aktuella frågor inom informationshanteringsområdet. Datum: onsdagen den 8 oktober, 2025  Tider: Kl. 12.00 – 12.45 Plats:  Online / Teams Målgrupp: Medarbetare inom Svenska kyrkan som arbetar med informationshantering (arkiv, registrering / diarieföring, administration men också kommunikation). Givetvis är du som jobbar i andra organisationer och har andra titlar välkommen

Insights logga
Nyheter

Jobbar du inom Stockholms stad och vill köpa tjänster från oss på Arkiwera?

Under sommaren 2025 har Insight kommit på plats som ny ramavtalsleverantör för leverans av programvaror och molntjänster till Stockholms stad. Vi på Arkiwera är underleverantör till Insight och det går därmed utmärkt att avropa våra tjänster via dem. Detta gäller oavsett om det är en förlängning på tidigare avtal eller