Taggad: ordmoln

Hur kan man få översikt över en samling med över sju millioner poster?

Vi fortsätter vår serie om att göra kulturarvssamlingar sökbara ”utforskningsbara” online. I detta det näst sista inlägget presenterar vi en prototyp som är ett försök att göra riktigt omfattande kulturarvsdatabaser ”greppbara”.

Hur kan man göra det enkelt för någon att förstå vad som finns i en riktigt stor databas? Man kan skriva: ”Databasen omfattar ca 7 millioner poster” och därefter hänvisa användaren till en sökruta. Men kan vi verkligen inte erbjuda något bättre än så? I vårt första blogginlägg om generösa användargränssnitt redovisade vi de designprinciper som ger vägledning:
– Show first, don’t ask (provide rich overviews without search)
– Provide samples and clues (using collection content)
– Show relationships (between collection features)
– Provide rich primary content (deliver on the promise)

Med utgångspunkt i den första principen valde vi att utveckla en prototyp som försöker ge just en översikt över en väldigt stor databas med kulturarvsinformation. De andra prototyperna vi utvecklade var ju alla baserade på mindre urval av innehåll. Vi tog därför som utgångspunkt K-samsök som är en samling av kulturarvssamlingar. Totalt innehåller K-samsöks databas fler än sju millioner poster! Den officiella söktjänst som finns för K-samsök är Kringla. Dess landningssida, med de sex ”boxarna” som visar olika typer av objekt och hur många de är ger faktiskt en viss översikt och gör det med innehåll taget från samlingen, men därefter är det sökrutan som gäller.

Vi valde därför för att gå en mer abstrakt väg med fokus på informationsvisualisering som går bortom en grundläggande indelning i objekttyper och antal. Prototypen vi utvecklade ska ses som ett möjligt komplement till (en ny version av) Kringla, inte alls som en ersättning. För att spara oss tid och pengar utgick vi från en design (länk till pre-print version av en artikel om designarbetet) och källkod som Potsdam Urban Complexity Lab gjort för Deutsche Digitale Bibliothek. Det finns ingen anledning att återuppfinna hjulet och Deutsche Digitale Bibliothek försökte tackla precis samma problem som vi: hur kunna ge översikt och insikt i en samling som är så stor?

The landing page for the Kringla Visualized prototype
Kringla Visualiserats landningssida, svensk version.

Vi behövde givetvis göra vissa anpassningar av källkoden men det gick ändå ganska raskt att utveckla vår prototyp ”Kringla Visualiserat/Visualized”. Prototypen ger användaren en översikt över innehållet i K-samsök baserat på tid, nyckelord och platsnamn (i vårt fall landskap). De visualiserade översikterna är interaktiva och länkade till den vanliga versionen av Kringla när användaren vill klicka igenom för att se detaljer om ett eller flera enskilda objekt.

The timeline of Kringla Visualized where the time-selection matches the Nordic Iron Age, 500BC-1050AD
Den interaktiva tidslinjen med ett tidsurval som motsvarar svensk järnålder. Notera att ordmolnen under tidslinjen uppdateras baserat på tidsurvalet. Järn förefaller förvisso vara populärt på järnåldern.

Tidslinjen visade sig också vara till nytta för att upptäcka datakvalitetsproblem! Om man ska tro tidslinjen så finns det flera fotografier i K-samsök utförda innan fotografi uppfanns. En närmare titt visar att det förstås inte är frågan om vare sig tidsresenärer eller att fotografikonsten faktiskt uppfanns av en anonym nordisk bronsåldersbo. Det är givetvis felaktiga metadata som spökar! Ibland enkla misstag men ofta att datumet för fotografiet och dateringen av fotografiets motiv blandats samman.

Timeline showing a number of photographs taken long before photography was invented. Metadata errors are the cause.
Felaktiga metadata eller tidsresenärer?

En annan vy som finns tillgänglig i prototypen är en översikt över antalet poster av en viss objekttyp (Kulturlämning, Byggnad, Fotografi, Föremål, Konstverk, etc.) som det finns i K-samsök för varje landskap. Den här typen av översikter vet vi att många forskare och handläggare är intresserade av att ha tillgång till.

Charts visualising the number of objects of a specific type per Swedish province.
Visualisering av antal objekt av varje typ per landskap.

Det man ska vara medveten om när man visualisera statistik på detta viset är förstås att uppmuntra användarna till källkritik. Det finns många aspekter man behöver väga in när man tolkar statistiken, t.ex. vilka landskaps kulturarv är mest befolkade? Eller har ar flest starka kulturarvsinstitutioner?

Den här vyn, om man går vidare och utvecklar prototypen till fullödig produkt, skulle kunna utvidgas till att låta användaren välja andra geografiska indelningar (Län, Kommun, Socken) men också välja att se statistik på finare klassificeringar under objekttyperna. Exempel på detta skulle kunna vara olika byggnadstyper (Slott, Koja, Torp, Stadshus, etc.), olika fornlämningstyper (Runsten, Hög, Boplats, etc.), olika föremålstyper (fibula, brakteat, flintyxa, etc.), eller olika konstverksformer (målning, skulptur, vävnad, etc.). En annan möjlighet vore att välja arkeologisk periodindelning, århundraden eller årtionden som en dimension att segmentera graferna.

Testa gärna Kringla Visualiserat själva! Och om ni har feedback och synpunkter så är dessa mycket välkomna. Maila dem gärna då till ksamsok@raa.se.

Källkoden till Kringla Visualiserad/Kringla Visualized är tillgänglig och öppet licensierad.