Kategori: Länkade öppna data

Jag länkar, alltså finns jag

Länkstuga på Riksantikvarieämbetet
Länkstuga. Foto: Lars Lundqvist. CC-BY-SA

Sakers värde som kulturarv syns i de kopplingar de har till sina sammanhang, t ex att ett föremål ägts av en viss person, funnits på en viss plats, använts vid en viss händelse eller har en berättelse kopplad till sig. I digitaliserade samlingar blir sådana värden tydliga genom betydelsebärande länkar – länkning är ett enkelt sätt att koppla ett enskilt ting till dess kontext och göra dess betydelse synlig.

Oftast finns inte heller all information om ett visst objekt på den institution där objektet befinner sig, utan kan finnas på andra museer eller arkiv, i litteratur, på Wikipedia och många andra ställen. Bra länkar mellan olika källor underlättar alltså kunskapsbyggande.

Därför vill vi öka antalet synliga, betydelsebärande länkar till och från det digitala kulturarv som går att hitta i K-samsök. Vi vill också hitta metoder för att genomföra förbättringsinsatser som ger bra effekt utan att kräva alltför mycket tid eller förberedelse av deltagare.

För en dryg vecka sedan gjorde vi därför ett test i form av en liten, intern länkstuga med fokus på att koppla ihop Wikipediaartiklar med fornlämningar och byggnader. Den konkreta uppgiften var att lägga in faktarutor i Wikipediaartiklar om fornlämningar för att på så sätt skapa kopplingar mellan artiklar och fornlämningsposter. Om en artikel i Wikipedia länkar till ett objekt i Fornsök, genom t ex en sådan faktaruta, hämtas kopplingen automatiskt in och visas sedan i Kringla. Ett exempel är Nasa silvergruva, där Kringlasidan berikas av en länk till en informationsrik Wikipediaartikel som också blir en koppling mellan gruvan och Silbojokk silverhytta som var en annan del av Nasafjälls silververk.

Under länkstugan redigerades sammanlagt 171 Wikipediaartiklar, och av bara farten fick en del Kringla-poster dessutom länkar till relaterade objekt i Kringla, till litteratur i Libris och till objekt i Europeana.

Några erfarenheter från länkstugan:

  • Kortare pass hellre än heldagar – när vi jobbar med länkning kanske det räcker med 2-3 timmar som deltagarna arbetar fokuserat. Det sänker tröskeln för att delta. I vårt test hade många aldrig redigerat på Wikipedia förut och behövde tid för att registrera sig som användare och få extra introduktion. Vid kortare pass kan det vara bra att lägga till lite extra tid för de som är helt nya.
  • Regelbundenhet – redigerar eller länkar man för sällan är det svårare att komma igång igen. Med regelbundna, korta pass får man in vanan.
  • Det verkar vara bra att fokusera på ett sätt att redigera och ge en konkret uppgift istället för att försöka lära ut flera olika sätt att redigera på samma gång. Till exempel länkning via faktarutor som vi gjorde nu.
  • Vid arbete med Wikipedia är det bra att ”förvarna” innan på Bybrunnen så att de som är mycket aktiva där vet om att det kommer dyka upp många redigeringar från nya användare.

Vi jobbar vidare med detta under 2014!

K-samsök och DAP tar Italien

Konferenshallen i Pisa där "Opening the Past" ägde rum.
Opening the Past 2013, Pisa. Foto: Marcus Smith; Licens: CC-BY

I mitten av juni presenterades DAP (programmet ”Digitala Arkeologiska Processer”) för första gången internationellt på konferensen “Opening The Past: Archaeology of the Future” i Pisa (13–15 juni). Konferensen ordnades av Universitet i Pisa och sitt Mappa projekt, som skapar bl.a. början på ett digitalt arkiv för Italiensk arkeologi och ett rikt och omfattande stadsGIS system för staden Pisa.

Läs mer

Jump to the next curve

I det fenomenala webbklippet där Guy Kawasaki berättar om 12 saker han lärde sig av Steve Jobs är ett av huvudnumren “jump to the next curve”. Under diskussioner kring hur vi ska utveckla K-samsök i framtiden försökte vi på utvecklingsenheten på Riksantikvarieämbetet bryta ner vad detta kan tänkas innebära. Denna blogpost är en utveckling av den diskussionen. Resonemanget som förs av Jobs/Kawasaki handlar om att man inte ska jobba på att fördjupa en verksamhet inom det område som den just nu är mest välmående, utan att man ska hoppa till nästa utvecklingskurva och börja jobba där – det är så man når framgång i framtiden. Man kan också kalla det att jobba långsiktigt. Ett av Kawasakis exempel är isutbärarna. I en värld där det inte finns kylskåp, men isskåp, finns det en stor marknad för isutbärare, dvs folk som jobbar med att flytta iskuber mellan islager och isskåp i folks hem. När kylskåpen kom upphörde inom kanska kort tid isutbärarna att existera som yrkeskår. Den som uppfann kylskåpet hade hoppat till “nästa kurva”, och de som jobbade med att anställa fler isutbärare hade hållit sig till det gamla paradigmet.

Den intressanta frågan som vi diskuterat är hur detta kan appliceras på en tjänst som K-samsök? Här har vi en tjänst som aggregerar information från flera olika institutioner (i skrivande stund 60 st) i en enda sökbar tjänst. Vi labbade lite med begreppen och konstaterade att själva aggregeringen förmodligen är en egen “kurva” inom utvecklingen av hur man hanterar sammanställning av information. Jag gjorde en skiss över det hela för att illustrera:

UTvecklignskurvor för data

Här följer en kort presentation av vad som avses med de olika kurvorna.

1. Gul kurva: Portaler. När webben var relativt ny ville man försöka samla länkar till olika områden som man tyckte var intressant i så kallade “portaler”. Många stora företag byggde portaler för snabb åtkomst åt sin data, och även på Riksantikvarieämbetet fanns det ett portalprojekt (kallat “Kulturmiljöportalen”). Under denna kurvas dominans handlar webb i väldigt hög utsträckning om att koda HTML, och många som hade gått en kortkurs i textuppmärkning blev “it-gurus”, ganska oförtjänt. Men sökmotorer som Google blev snabbt effektivare än portalerna, och när de sociala webbarna började dominera blev det ofta enklare för användaren att skriva frågan man hade på ett forum, eller att söka på nätet för att hitta sin information. Då hade dock redan kurva 2, som jag här kallar webb/databas börjat dominera.

2. Blå kurva: Webb/databas. Här hanteras inte längre information som enskilda sidor på servrarna, utan lagras i databaser vilket t ex möjliggör för den sociala webben – nu kan folk kommentera eller logga in på sajter. Detta i sin tur försvårar för sökmotorerna som måste börja indexera innehåll på nya sätt. Nu är det också möjligt att hålla sin data i sökbar form på webben i ett webbgränssnitt, men det är svårt att koppla flera söktjänster till varandra. Snart uppfinner man APIer som löser detta problem (och gör att man kan komma åt data i en tjänst från flera olika databaser samtidigt). Här börjar separationen mellan data och tjänst att bli tydlig – tidigare har ju kopplingen mellan presentationsformatet och innehållet varit hundraprocentlig (precis som på den analoga tiden).

3. Röd kurva: Aggregering. Men det finns ändå problem med att data lagras i enskilda databaser, i så kallade “informationssilos”. Även om data från olika håll kan användas i en och samma tjänst är det svårt att veta vilka datamängder som hänger ihop, och på vilka sätt. Därför uppfinner man aggregaten, nya databaser som oftast sammanställer metadata från flera olika håll och gör denna metadata sökbar via ett gränssnitt. Här ensar man också metadatat så att man kan få någorlunda bra överenesstämmelse mellan de olika datamängderna i sin sökning (vilket är en mer än omfattande process eftersom de ofta har olika ursprung och olika metoder för att lagra in datat). Aggregaten fyller också rollen att exponera datamängder som ännu inte har något gränssnitt mot webben.

4. Lila kurva: Länkade öppna  data. Men det går ju inte att aggregera allt, det finns nämligen inget slut på hur mycket man kan behöva aggregera (snart sitter man i en situation där man har aggregerat mer eller mindre hela webben). Anledningen till detta är att digital information till skillnad från analog är i sitt absoluta esse när den kopplas till andra datamängder. Konsekvensen av detta blir i sin tur att data bara lagras där det skapas, för att sedan användas på massa andra ställen. Denna modell kallas “Länkade öppna data”, och utgår från metoder för informationssammanställning som Tim Berners-Lee hittade på och kallade för den semantiska webben, eller webb 3.0. Istället för att bara ställa frågor till datat på ett ställe så skickar man frågan till mängder av ställen baserat på länkar.

5. Grön kurva: ?. Det är så långt vi tror oss ha en uppfattning just nu. Vad som händer efter en semantisk webb kan vi bara spekulera i, men det ingår inte i scopet för den här blogposten.

Man kan dra lite slutsatser av kurvorna och hur de framträder. Till att börja med är det dock bra att säga att detta är en skiss och en tolkning av en verklighet som förstås är mycket mer komplex än så här. Alla bilder av verkligheten är per definition förenklingar. Men de kan hjälpa oss att sortera i begreppen. En tydlig trend är att vi rör oss från att data är “sökbar” till att den är möjlig att ställa frågor till – blir bearbetningsbar eller “queryable”. Nu handlar det inte bara om att hitta fram till ett objekt, utan att kunna hitta ett urval baserat på en (kanske ganska komplex) urvalsfråga. Det spekuleras i om inte detta kommer att leda fram till nya yrkeskårer inom branscherna, någon form av digitala kuratorer eller bibliotekarier.

En annan tydlig sak är att vi rör oss på flera kurvor samtidigt. Det gröna strecket representerar nu, 2013, och man kan kanske konstatera att det (nästan) inte är någon som talar om portaler längre. Det är lite Länkade öppna data på uppseglande men många jobbar fortfarande med stängda databaser kopplade till ett sökgränssnitt. Aggregaten är ganska många.

Som vi har resonerat måste K-samsök ta fasta på det som gör aggregatet unikt i en värld där Länkade öppna data är normen. Annars kommer det inte längre att vara värdefullt för informationsförvaltarna att delta med sin information i den form av jätteindex som K-samsök utgör. Det kommer fortfarande under ganska lång tid att vara en väg ut för institutioner som inte har förmåga eller kunskap kring att lägga ut sin data som RDF-filer på egen hand (då kan ju K-samsök lösa det åt dem), men för den ökande mängd institutioner som gärna vill nå ut med sin data direkt måste det finnas mervärden.

Återstår gör att identifiera dessa.

>> Henrik Summanen jobbar med K-samsök och Länkade öppna data på Riksantikvarieämbetet.