Linked Open Data sætter bibliotekernes viden fri
Med Linked Open Data vil al den viden, der i dag gemmer sig i bibliotekernes kataloger også kunne findes på Google.
DBC betragter Linked Open Data som et væsentligt strategisk indsatsområde, som vi vil arbejde målrettet med i de kommende år.
Vi har i 2012 gennemført et projekt, der har gjort os klogere på Linked Open Data, hvad det betyder for bibliotekerne, og hvad det indebærer at publicere bibliografiske data som Linked Open Data.
Projektet er nu så langt, at datamodellen er implementeret og ca. 47.000 bibliografiske poster omfattende bøger med tilhørende forfattere er konverteret til Linked Open Data.
I et biblioteksperspektiv er Linked Open Data interessant, fordi:
- Data kan anvendes nemmere og bredere – også udenfor biblioteksdomænet
- Datasæt fra forskellige domæner kan kobles og berige brugerens søgning
- Brugeren får flere og mere præcise data
- Ansvar for data kan deles, fx autoritetsdata
- Bibliotekssektoren er brugernes garanti for pålidelige data
Uendelig stort og alligevel ikke nok
Ifølge Internetudbyderen Netcraft.com er der november 2012 625.329.303 hjemmesider på nettet worldwide.
På den ene side er der så mange informationer på nettet, at det næsten er umuligt at se skoven for bare træer. På den anden side skjuler der sig under overfladen et enormt skatkammer af data, der, afskærmet i databaser og søgerobot-ulæselige formater, ikke kan fremsøges.
Søgemaskinerne er ikke til megen hjælp, når man kan vælge mellem 1.960.000 hits og ”Jeg prøver lykken.”
Et af Googles nyere tiltag for optimering af søgealgoritmen går ud på, at den information de fleste, nok er den mest relevante. En tvivlsom anbefaling, med mindre man ønsker at købe en plæneklipper, for uanset hvilke avancerede algoritmer søgerobotter i dag anvender, mangler den betydningsmæssige identifikation af indholdet. Hvad er for eksempel Paris: Byen, fodboldholdet, en toast eller filmen? Det har man brug for at vide, for at sekshundredemillioner hjemmesider skal give mening.
Befri bibliotekernes data
Den begrænsning, der især har relevans for bibliotekssektoren er alle de data, der i dag gemmer sig i biblioteksdatabaserne.
Formålet er oplagt: At gøre anvendelsen af biblioteksdata bredere og nemmere.
Derfor er betydelige biblioteker som bl.a. British Library, Library of Congress, Bibliotheque Nationale France, Deutsche Nationalbibliothek og OCLC i fuld sving med at publicere de hidtil anvendte data i MARC-format som Linked Open Data.
Også Europeana arbejder aktivt med Linked Open Data.
Se Europeanas video om Linked Open Data
Mere intelligent med Linked Open Data
Linked Open Data gør ikke søgerobotterne mere intelligente. Der er snarere tale om, at vores data tilpasser sig søgemaskinerne, så de maskinelt kan udpege og vælge blandt alle de samhørende relaterede data, dokumenter og objekter, der er på nettet.
Grundstenen i Linked Open Data er strukturerede data, der overholder Resource Description Framework (RDF)'s datamodel.
Alle ressourcer beskrives i form af udsagn af subjekt-prædikat typen, hvor subjektet er den "ting" der beskrives, mens prædikatet er et træk eller aspekt ved ”tingen”, som udtrykker relationen mellem subjekt og objekt. Objektet er aspektets værdi.
I dette eksempel er værdien af objektet navnet ’Hans Hansen’.
Hvis prædikatet var fødested kunne objektets værdi fx være ’København.’
For bibliografiske data betyder det, at man i stedet for at beskrive en bibliografisk ressource, fx en bog i én sammenhængende post, beskriver den med en række udsagn eller tripler (subjekt + prædikat + objekt), svarende til elementerne i posten.
De enkelte elementer i triplen tildeles hver en unik identifikation i form af en URI (Uniform Resource identifier), som understøtter, at søgemaskiner og andre applikationer er i stand til at manøvrere meningsfyldt rundt i data.
En almindelig bibliografisk registrering
Samme registrering illustreret som Linked Open Data
DBC’s videre engagement i Linked Open Data
På baggrund af en række forstudier har en projektgruppe i vores Datadivision udarbejdet en datastruktureringsmodel baseret på Resource Description Framework, der er en generel metode til konceptuel beskrivelse og udveksling af information via http protokollen.
Datamodellen omfatter bøger og personer. Modellen baserer sig på den datamodel, som British Library anvender.
Det nuværende analyse- og læringsprojekt overgår i 2013 til et egentligt implementeringsprojekt med publicering af flere nationalbibliografiske data som mål.
Det vil vi arbejde med i 2013:
- Etablering af en national strategi for autoritetsdata
- Videreudvikle oversættelser af termer og oversættelser mellem lister, fx DK5 og DDC
- Etablere links til flere datasæt, fx:
- fra DK5 til Dewey
- til andre kontrollerede navneformer
- fra landekoder og emneord til koordinater - Etablere en forbedret lagrings- og publiceringsplatform
- Sætte automatiserede procedurer i drift for konvertering fra danMARC2 til RDF
- Udbygge den nuværende datamodel 2.0 til version 3.0, der også kommer til at omfatte andre dele af nationalbibliografien end Dansk bogfortegnelse
- Publicere flere data som Linked Open Data, fx DK5, danMARC2’s lande- og sprogkoder
- Indgå i konkrete projekter om anvendelse af Linked Open Data
Linked Open Data godt på vej – men ikke lige om hjørnet
Med det fokus der internationalt er på Linked Open Data og de betydelige kræfter, der er i færd med at videreudvikle standarder og stille data til rådighed, er der al mulig grund til at tro, at Linked Open bliver den standardiserede måde, hvorpå vi i fremtiden kommer til at synliggøre og forbinde videnressourcer på nettet.
Links
Wikipedia: Linked Open Data
Manden bag: Tim Berners-Lee
DBC's dokumentationssite for Link Open Data
Europeana video om Linked Open Data
OCLC’s video om Linked Open Data
Tim Berners-Lee taler på TED om Linked Open data