Het huidige World Wide Web (www) loopt ondanks haar nog steeds groeiende succes tegen beperkingen aan, die door de technologieën van het Semantic Web worden aangepakt. Door boven op bestaande Webtechnologieën zoals als URI's en XML nieuwe componenten en talen als RDF en OWL te definiëren, wordt het mogelijk de huidige beperkingen op te lossen en van het www een groot kennissysteem te maken, waarin toegang tot een ongekende hoeveelheid kennis voor iedereen mogelijk zal worden.
Hierin worden de bouwstenen van het huidige World Wide Web en het in ontwikkeling zijnde Semantic Web beschreven. Daarnaast komen de beperkingen van het het huidige World Wide Web aan bod en wordt beschreven op welke wijze de technologieën van het Semantic Web deze beperkingen trachten weg te nemen.
Met het Semantic Web wordt het mogelijk om computers op een veel expressievere manier te laten communiceren met mensen. Men kan bijvoorbeeld als een woordenboek om een Chinese vertaling voor het woord “boek” op te zoeken. Met de woordencombinaties zoals “Chinese vertaling van boek”, weten we als mens dat we daadwerkelijk een Chinese vertaling willen hebben en niet op die woorden willen zoeken. Waar huidige zoeksystemen de mist in gaan, biedt het Semantic Web mogelijkheden om geavanceerde queries uit te voeren en met relevante antwoorden te komen die de gebruiker ook daadwerkelijk wil krijgen.
Het World Wide Web heeft een groot deel van haar succes te danken aan de toegankelijkheid van alle informatie die via het medium beschikbaar is. Een internetverbinding en een browser is alles wat men nodig heeft om een ‘window to the world', waarin de schat aan informatie onbeperkt lijkt, te hebben. Doordat het www wereldwijd massaal gebruikt wordt, is een echte ‘global village' ontstaan.
Het www biedt ongekende mogelijkheden om met andere mensen te communiceren en informatie raad te plegen en (wat jammer genoeg door veel mensen uit het oog wordt verloren) aan te bieden. Tim Berners-Lee, de uitvinder van het www, schreef: “With the Web, you can find out what other people mean. Let's use the Web to help people understand each other.”
De nieuwe manier van communicatie met andere mensen over de hele wereld heeft ertoe geleid dat er vele succesvolle communities en projecten zijn ontstaan. “Let's use the Web to create neat new exciting things.”
Het succes van het www is groter dan iemand ooit had kunnen dromen, maar het Web loopt in de huidige vorm tegen aanzienlijke beperkingen aan. Verreweg het meeste materiaal dat op het Web te vinden is namelijk bedoeld voor menselijke consumptie en niet voor gebruik door computers zelf. Hoewel de ‘human factor' een van de belangrijkste redenen van haar succes is, heeft het Web in haar huidige vorm te lijden van onbegrip door computers. “For the documents in our lives, everything is simple and smooth. But for data, we are still pre-Web.”
Het World Wide Web Consortium (W3C) een door Tim Berners-Lee voorgezeten internationaal orgaan dat standaarden ontwikkelt voor gebruik op het www, heeft het initiatief genomen voor een verzameling duurzame technologieën die de beperkingen van het huidige www zullen wegnemen: het Semantic Web. Het Semantic Web bouwt verder op de bestaande infrastructuur van hetWorldWideWeb, maar breidt deze uit met technologieën die computers in staat stellen rekenkracht te gebruiken voor het maken van intelligente analyses. Alleen als dat mogelijk is, kunnen computers de gebruikers écht van dienst zijn.
De onderzoeksvraag die ik in dit artikel zal antwoorden, luidt: Welke rol spelen de verschillende ontwerpprincipes en bouwstenen van het Semantic Web bij het oplossen van de problemen en beperkingen van het huidige www?
Om deze vraag te beantwoorden zal ik in de eerste plaats onderzoeken welke principes aan het www en het Semantic Web ten grondslag liggen, en hoe deze principes hun vorm vinden in verschillende technische bouwstenen.
terug naar bovenHet huidige web is inmiddels ongeveer vijftien jaar oud en borduurt voort op technologie uit die tijd. Hoewel het overgrote merendeel van deze technologie destijds zo ontworpen is dat deze uitbreidbaar is en dus toekomstige ontwikkelingen kon opnemen zonder dat een geheel nieuwe technologie ontworpen moest worden, worden de beperkingen nu echt zichtbaar.
In het volgende gedeelte zal ik kort de principes van het huidige www beschrijven, om vervolgens uit te weiden over de beperkingen en knelpunten voor de toekomst.
De principes van het www laten zich in drie categorieën opsplitsen: identificatie, interactie en dataformaten.
Om te kunnen communiceren is het van belang dat het voor alle partijen duidelijk is waar de boodschap over gaat. Elk onderwerp waar een uitspraak over gedaan kan worden, moet geïdentificeerd kunnen worden. Omdat het www bedoeld als universeel medium, is het van belang dat er geen ambiguïteit bestaat als er uitspraken worden gedaan. Om dit te kunnen bereiken, zal elk object een unieke eigenschap moeten hebben, een zogenaamde global identifier: “Global naming leads to global network effects.”
Het www gebruikt een Uniform Resource Identifier (URI) om een object van een unieke identifier (ID) te voorzien. Een URI heeft een generieke syntax in de volgende vorm:
<scheme>:<scheme-speci_c-part>[?]
Er bestaan dus verschillende typen URI's met verschillende schema's. Een bekende en veel voor adressering op het www gebruikte URI is de Uniform Resource Locator (URL).
Een voorbeeld van een URL is:
http://example.com/path/to/_le?with-a-query-string#and-a-fragment-id
Bovenstaande URL bestaat uit een addressing scheme , network location , path , query en tot slot een fragment identifier . Deze laatste wordt vaak niet tot de URL gerekend omdat de functie van een fragment identifier slechts een bladwijzer is naar een specifiek punt in de resource .
Een URI is slechts een ID voor een resource. Vaak zullen gebruikers en software de inhoud van een resource willen opvragen. Veel URI-schema's zijn genoemd naar een protocol voor het opvragen van de bron, bijvoorbeeld HTTP en FTP. Bij opvragen via het HTTP-protocol kan de resource in verschillende representaties aangeboden worden. Een document kan bijvoorbeeld in HTML, platte tekst of als PostScriptdocument worden aangeboden. De user agent kiest in zo'n geval de meest geschikte representatie en kan die bijvoorbeeld aan de gebruiker tonen.
Een URI beschrijft niet welk dataformaat de resource heeft, hoewel dit vaak wel te zien is aan URL's, omdat die vaak eindigen in een bestandsnaam met een extensie. Dataformaten kunnen ingedeeld worden in twee typen: textual en binary. In principe kan alle data als tekst gerepresenteerd worden, maar dat is niet altijd praktisch (denk aan bestandstypen voor foto's, geluid en video).
Tegenwoordig zijn veel dataformaten gebaseerd op het tekstgebaseerde en zeer veelzijdige XML. De bekendste is wellicht Extended Hypertext Markup Language (XHTML), een herformulering van HTML in XML. Andere voorbeelden zijn Scalable Vector Graphics (SVG), Really Simple Syndication (RSS) en Friend of a Friend (FOAF).
Zoals ik in de inleiding al vermeldde, is het huidige www inmiddels ongeveer vijftien jaar oud en worden de beperkingen zichtbaar. Het huidige www is in feite een verzameling documenten opgemaakt in HTML, waarin verwijzingen naar andere HTML-pagina's gemaakt kunnen worden door een hyperlink (zie figuur 1).
Voor mensen is dit een heel interessant www, maar machines kunnen niet zoveel met dit www. Het huidige www is niet bruikbaar, omdat de betekenis van de inhoud van het www niet duidelijk gedefinieerd is. Mensen begrijpen uit de context de significantie van een hyperlink, de prijs van een product, de titel van een artikel en de auteur van een website. Deze informatie ligt echter verborgen in taal en vorm; iets waar machines niet zoveel mee kunnen. Voor machines heeft het web slechts zeer beperkt betekenis.
Het volgende voorbeeld geeft aan wat de problemen zijn bij het zoeken op het www. Stel dat iemand een rode auto wil kopen in de omgeving van Amsterdam. Invullen van de woorden ‘rode auto te koop in amsterdam' in het zoekveld van een zoekmachine levert een verzameling resultaten op die deze termen bevatten, maar zeer waarschijnlijk is dit geen goed resultaat. Wellicht is de auto die de potentiële koper zoekt wel omschreven als ‘goed onderhouden Volkswagen' en is de advertentie geplaatst door iemand met een
telefoonnummer in Amsterdam. Deze advertentie zal echter nooit gevonden worden met de huidige technologieën.

Figuur 1: Schema van webpagina's met hyperlinks
terug naar boven
Zoals in de inleiding al genoemd is, is het Semantic Web een initiatief van het W3C om het World Wide Web in haar huidige vorm uit te breiden met technologie die het mogelijk maken om machines in te zetten voor zaken waar machines goed in zijn: nauwkeurige analyses doen over grote hoeveelheden gegevens. In feite dienen alle technologieën een gezamenlijk doel: betekenis ondubbelzinnig definiëren, ofwel semantisch onderscheid maken tussen verschillende typen data.
Het Semantic Web gaat uit van een aantal principes, die ik hieronder kort zal toelichten:
Voor het beschrijven van betekenis wordt gebruik gemaakt van het Resource Description Framework (RDF). RDF beschrijft een manier waarop informatie over Web resources (bronnen) vastgelegd kan worden. Binnen RDF worden URI's gebruikt voor alle identificatie. Een Resource is binnen RDF niets meer dan een ID met verschillende property-value paren. Beschrijvingen in RDF kunnen gevisualiseerd worden als een labeled, directed graph zoals in figuur 2 afgebeeld wordt. Elke uitspraak in RDF bestaat uit drie onderdelen: subject, predicate en object. Op deze manier kan bijvoorbeeld de volgende uitspraak gedaan worden: “http://example.com heeft een creator met de waarde John Doe.”

Figuur 2: Visualisatie van RDF. Het linker vlak is het subject, de pijl het predicate en het rechter vlak het object
Met RDF kunnen verschillende typen metadata gecombineerd worden tot een geheel. Door gebruik te maken van verschillende vocabularies (verzamelingen van gerelateerde termen, bijvoorbeeld binnen een bepaald vakgebied) kunnen verschillende soorten metadata gescheiden gehouden worden. Een voorbeeld hiervan is Dublin Core: een standaard-vocabulary voor bibliothecaire eigenschappen zoals auteur en uitgever.
Er zijn momenteel twee verschillende syntaxes om RDF data te noteren: XML-serialisatie (RDF/XML) en N-Triple (N3). De laatste variant is een verkorte schrijfwijze die gemakkelijker te gebruiken is door mensen, maar verder dezelfde mogelijkheden biedt als de XML-variant. Een voorbeeld van een RDF/XML fragment volgt:
<?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#"> <contact:Person rdf:about="http://www.w3.org/People/EM/contact#me"> <contact:fullName>Eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@w3.org/> <contact:personalTitle>Dr.</contact:personalTitle> </contact:Person> </rdf:RDF>
Een simpel voorbeeld van de syntactisch simpelere N-Triple notatie volgt:
<http://kwok-square.nl/> <http://purl.org/dc/elements/1.1/creator> "Kwok-Ho Lam"
Naast RDF zelf bestaat er RDF Schema (RDFS), een gerelateerde taal die RDF-structuren beschrijft en onder andere nuttig is bij het raadplegen van RDF-gegevens.
Met RDF is het mogelijk geworden om op een gestandaardiseerde manier data informatie te geven. Het is nu mogelijk geworden queries uit te voeren op RDF-databases, ook wel triple stores genoemd, omdat zij subject–predicate–object drietallen bevatten. SPARQL Protocol And RDF Query Language (SPARQL ) is een query language om te kunnen zoeken in triple stores. De syntax lijkt enigszins op Structured Query Language (SQL), dat veel gebruikt wordt om gegevens in traditionele relationele databases te doorzoeken. Een voorbeeld van een SPARQL query volgt:
PREFIX dc: <http://purl.org/dc/elements/1.1/>
SELECT ?title
WHERE { <http://example.org/book/book1> dc:title ?title }
De volgende stap naar een Semantic Web bestaat uit het bepalen van ontologies. Ontologie is gedefinieerd als ‘leer van de algemene eigenschappen van de dingen' oftewel ‘zijnsleer'. Een ontologie is een beschrijving van de eigenschappen die dingen (in dit geval Resources) kunnen hebben en de relaties tussen deze eigenschappen. Dit biedt mogelijkheden om intelligente reasoning te kunnen doen: conclusies trekken uit bestaande gegevens, waarin vervolgens gezocht kan worden. Een ontologie kan bijvoorbeeld de termen ‘artikel', ‘publicatie', ‘auteur' en ‘persoon' vastleggen. Als daarnaast ook vastgelegd wordt dat een artikel een publicatie is, een auteur altijd een persoon is en een publicatie een auteur heeft, kan uit het RDF-triple artikel X — creator — persoon Y nieuwe informatie geconcludeerd worden. Op deze manier wordt het mogelijk om te zoeken in informatie op een manier die voorheen niet mogelijk was met traditionele zoekmachines en databases.
Om ontologies te beschrijven wordt gebruikt gemaakt van Web Ontology Language (OWL ). OWL is een ontwikkeling die een oudere poging om ontologieën vast te leggen, DAML+OIL , opvolgt. OWL bestaat uit drie subtalen:
Er zijn momenteel slechts zeer beperkt implementaties van OWL beschikbaar. Het is ook hoogst onwaarschijnlijk dat een implementatie heel OWL Full zal kunnen omvatten.
terug naar bovenHoewel met RDF, RDFS, SPARQL en OWL zeer uitgebreide kennissytemen gemaakt kunnen worden, namelijk het gehele www, bieden de technieken van het Semantic Web geen ongekende mogelijkheden. Het Semantic Web is namelijk geen toepasing van Artificial Intelligence. In het Semantic Web hebben machines geen intelligentie, maar opereren zij op vooraf welomschreven wijze op nauwkeurige en welomschreven gegevens om welomschreven taken uit te voeren. Door het koppelen van verschillende RDF Webs kan echter een zeer grote kennisbank gecreëerd en inzichtelijk gemaakt worden. Het ziet er dan ook naar uit dat het Semantic Web in de komende jaren het bestaande World Wide Web zal verrijken met nieuwe mogelijkheden die de toegankelijkheid en beschikbaarheid van informatie zeer ten goed zullen komen.
terug naar boven