Het statische world wide web

Rond 1990 werd het world wide web bedacht door Tim Berners-Lee1. Het succes was enorm, mede door de eenvoud van de basistechnieken die werden gebruikt. Daarbij was de belangrijkste doorbraak de opmaak van informatie in HTML, met als unieke eigenschap de links naar de rest van het web.

Gedurende de eerste tien jaar groeide het web exponentieel, waarbij iedereen die dat wilde, zijn informatie op zijn eigen wijze vorm gaf en op websites beschikbaar maakte. De bezoeker van een website kon deze bekijken, maar er niets aan toevoegen. Ook het vinden van informatie bleef een lastige opgave, zeker omdat zoekmachines nog niet goed ontwikkeld waren.

Verre belofte: het semantic web

Hiermee was dit niet het web zoals Berners- Lee dit oorspronkelijk voor ogen had. Hij was veel meer uit op een web waarbij informatie ruimer toegankelijk was. Ruimer dan in het geval van een website met een enkele beheerder bereikbaar was. In de eerste plaats doordat iedere webpagina te bewerken zou zijn door bezoekers (dit is later gedeeltelijk gerealiseerd, in de vorm van Wiki’s2). Maar ook doordat informatie eenvoudig en automatisch gecombineerd zou moeten kunnen worden. Dit laatste idee verwoordde Berners-Lee rond 1999 als The Semantic Web3, kortweg semweb. Informatie wordt hierbij voorzien van betekenis die ook door machines, computers, te interpreteren is. Het basis principe komt er op neer dat er rijke meta-data wordt toegevoegd, dat wil zeggen, informatie over de (soort) informatie. Daarnaast werd er een hele reeks aan standaarden en technieken voorgesteld om deze meta-informatie te kunnen verwerken.

Het semweb leunt zwaar op nogal abstracte disciplines uit de academische wereld, kunstmatige intelligentie, verzamelingenleer en archiefwetenschappen.

Dit is lastige kost, heel anders dan de schijnbare eenvoud van opmaak in HTML. Het semweb werd dan ook aanvankelijk buiten de wereld van wetenschap en bibliotheken vrijwel genegeerd.

Naast de lastige academische materie waren er nog meer redenen waarom het semweb niet direct een succes werd. Het toevoegen van gegevens over web content, metadata, is veel werk en de eerste jaren zou daar nog niet veel profijt tegenover staan. Daarvoor is het immers nodig dat alle relevante informatie op het web verrijkt is, een enorme klus voor de content producenten.

Rond de eeuwwisseling was ook de tijd dat Google een nieuwe manier introduceerde om het web te indexeren. Door gebruik te maken van de structuur van het web zelf bleek het mogelijk om verrassend goede aannames te maken over de relevantie van gegevens. Dit maakte het handmatig verrijken van content minder urgent.

Toch waren de beloften van het semweb niet gering. Een standaard voorbeeld uit die dagen ging over het gebruik van intelligente agents die op zoek gaan voor hun opdrachtgevers en zelfstandig activiteiten uitvoeren of met adviezen komen. Zoals bij het maken van een afspraak: ik wil een afspraak maken met collega’s en stuur mijn agenda agent het net op, met de namen van mijn gesprekspartners. De agent weet wanneer ik beschikbaar ben en gaat op zoek naar de informatie van alle betrokkenen. Door alle beschikbaarheidsgegevens en voorkeuren te vergelijken, wordt er vanzelf een afspraak geboekt en in alle agenda’s bijgeschreven.

Het sociale web

Vanuit een heel andere hoek bleek er uiteindelijk toch meer behoefte aan een rijker web te komen. Vanaf 2000 groeide het verschijnsel van de weblog exponentieel. Dit leidde tot de opkomst van een sterke sociale component bij het publiceren op het web. Ik vertel op mijn weblog graag wie mijn vrienden en inspiratiebronnen zijn en deel belangrijke gebeurtenissen met anderen. Met de enorme groei van het aantal weblogs werd het ondoenlijk om alle blogs actief bij te houden. RSS feeds4 (op zich een veel oudere techniek) boden een gedeeltelijke oplossing, maar er moest meer gebeuren om informatie thematisch te kunnen verzamelen.

In 2004 signaleerde uitgever Tim O’Reilly5 dat er een wezenlijke sociale- en samenwerkings component aan het web werd toegevoegd en hij noemde dit Web 2.06. Een van de kenmerken was het toegankelijk maken van ruwe gegevens voor derden. Door deze gegevens te combineren met andere bronnen en verder te verwerken (te mixen) kunnen er geheel nieuwe, vaak verrassende toepassingen gemaakt worden. Een vroeg voorbeeld is housing maps7, dat huizen die op Craigs List8 te koop staan, op Google Maps9 markeert.

Een verschijnsel dat een hoge vlucht nam was het taggen10 van informatie en links. Bekende voortrekkers zijn del.icio.us (bookmarks) 11 en flickr (foto’s)12. Zo’n verzameling tags, met betrekking tot een zelfde onderwerp, wordt ook wel folksonomy13 genoemd. Ook voor weblogs werden tags populair. Op basis van deze tags kunnen blogs dan weer thematisch gegroepeerd worden. Een bekend voorbeeld is Technorati14, dat op basis van door gebruikers aangebrachte tags weblogs en artikelen groepeert en samenvoegt.

Hiermee was er een grote vraag naar informatie met goede metadata ontstaan, ook buiten de blogosphere15. De business case voor het semweb was als het ware rond. In dat zelfde jaar 2004 stelde Tantek Çelik16 (van Technorati) microformats voor onder de veelzeggende naam Real World Semantics17. De doelstellingen van het semweb worden verwezenlijkt met bestaande (X)HTML-techniek, voor en door de gewone gebruiker – primair de weblogger.

Microformats

Microformats zijn snel populair geworden als eenvoudig, begrijpelijk alternatief voor ingewikkelde semweb technieken. Het uitgangspunt is bestaande web techniek, voornamelijk HTML en wat CSS. Hieronder wordt in meer detail ingegaan op de kenmerken.

Voor “gewone” mensen

De definitie van microformats, vrij vertaald18: Microformats19 zijn in de eerste plaats ontwikkeld voor mensen en op de tweede plaats voor machines. Het zijn open data formats, gebaseerd op bestaande en veel gebruikte standaarden. In plaats van het wiel opnieuw te willen uitvinden, bouwen microformats verder op wat nu al werkt, door uit te gaan van eenvoudige oplossingen. En door huidige patronen in gedrag en gebruik als basis te nemen.

En inderdaad, de basis van microformats is gewoon bestaande HTML. Daar binnen wordt bepaalde informatie vervolgens op een gestructureerde manier opgenomen. Let wel, het gaat hier niet om de uiterlijke weergave, de vormgeving of lay-out, maar om de interne structuur van de HTML. Zo bestaan er afspraken voor een groeiend aantal formaten.

Een paar voorbeelden:
hCard20: adres- en contact gegevens;
hCalendar21: agenda gegevens (gebeurtenissen en data);
XFN22: relaties (wie zijn mijn vrienden en bekenden);
hReview23: recensies;
XOXO24: lijsten, opsommingen, definities;
hResume25: curriculum Vitae (een samengesteld formaat).

Door “gewone” mensen

Het is opvallend dat de specificatie van microformats niet door een officiële commissie wordt bepaald, maar door een zelf georganiseerde groep van webontwikkelaars, met een brede belangstelling voor sociale processen op het internet.

Al deze formaten komen tot stand op basis van uitgebreide observatie hoe de betreffende soort informatie in de praktijk het vaakst wordt gepubliceerd. Vervolgens wordt er kritisch gekeken naar wat er daadwerkelijk gebruikt wordt en waar de knelpunten zitten. Zo is bijvoorbeeld het hCard-formaat gebaseerd op het veel oudere vCard-formaat (bekend van onder andere Outlook en Mac Adresboek).

De uitgangspunten zijn steeds:
Een specifiek probleem oplossen;
Zo simpel mogelijk beginnen;
Ga uit van menselijk gebruik, daarna de machine;
Maak gebruik van veel gebruikte standaarden;
Modulaire opzet, samen te voegen tot groter geheel;
Bevorder decentrale ontwikkeling, content en diensten.

Toepassingen

Microformats zijn niet bedoeld als volwaardig alternatief voor het semweb. Maar een aantal kenmerken komen wel in die richting. Nu al is er een zoekmachine voor microformat content26, waarmee je kunt zoeken naar personen, gebeurtenissen of recensies.

Voor de browser Firefox zijn er een aantal plug-ins die microformats detecteren27. Vervolgens kun je de microformatgegevens gebruiken om te zoeken op andere websites, of exporteren naar andere programma’s op je computer.

Uitwisselen van gestructureerde gegevens tussen webpagina’s en locale applicaties wordt ook mogelijk gemaakt met Live Clipboard28, een voorstel van Microsoft dat een jaar geleden met veel enthousiasme ontvangen werd (Ray Ozzie: Wiring the Web)29.

Dit maakt nuttige toepassingen mogelijk, dicht bij huis.

Voorbeeld: adresgegevens, opgemaakt als vCard, kun je direct vinden op Google Maps voor een routebeschrijving.

Of: het jaarprogramma van de voetbalclub met uit- en thuiswedstrijden, opgemaakt met hCalendar. Met een enkele druk op de knop staat het hele programma foutloos in je eigen agenda.

Maar er zijn ook toepassingen waarbij informatie van verschillende bronnen met elkaar in verband gebracht kan worden. Zo kun je door het koppelen van XFN-relatienetwerkgegevens uitvinden of, en hoe, je via vrienden in contact met iemand komt.

Hier liggen grote mogelijkheden voor sites die gegevens verzamelen en indexeren. Van een recensie in hReview is het onderwerp eenduidig vastgelegd en meerdere recensies zijn makkelijk tot een gezamenlijk oordeel samen te voegen. Via je vriendenlijst kun je dan bijvoorbeeld recensies van mensen uit je eigen netwerk zwaarder laten wegen.

De mogelijkheden werden eigenlijk alleen maar beperkt door de beschikbaarheid van microformats in de praktijk. Op dit moment is er een ware explosie in aandacht voor microformats. Veel toepassingen zoals weblogsoftware (WordPress, LiveJournal) worden voorzien van microformatopmaak, zonder dat eindgebruikers er iets voor hoeven doen. Onlangs heeft zakelijke netwerksite LinkedIn30 beknopte versies van de CV’s van 9 miljoen leden als hResume gepubliceerd31. Het ziet er hiermee naar uit dat de doorbraak vanuit de aanbodzijde komt; de toepassingen32 volgen nu heel snel.

Toekomst

De kritische massa voor microformat content is bij de web pioniers inmiddels wel bereikt. Voor eindgebruikers is het aanbod nog wat mager. Het meest zichtbaar zijn vaak de enigszins knullige logo’s op websites, zoals we die ook kennen van RSS-feeds en podcasts. Hier ligt nog veel werk voor usability- experts en vormgevers om daar meer mee te doen. Dit wordt door Alex Faaborg, UI-designer voor Firefox, onderkend in het artikel ‘Structured Data Chaos’33.

Verder zal webbrowser Firefox in versie 3.0 sterke ondersteuning voor microformats gaan bieden. Dit betekent dat de webbrow ser een functie kan krijgen als centrale informatiemakelaar voor het web. Het online en offline beheer van je gegevens, koppeling en uitwisseling via het web: The Web Browser as Information Broker (Alex Faaberg)34. Dat hier grote usability uitdagingen liggen mag duidelijk zijn. De informele webloggers en de open source gemeenschap hebben het voortouw genomen. Als de gereedschappen voldoende bruikbaar worden voor het grote publiek, is het ideaal van het read/write web, ofwel het Web Operating System, veel dichter bij gekomen.

Vanuit het semantic web-kamp lijkt er een voorzichtige toenadering naar de enthousiaste microformat communities te beginnen. Aan de ene kant zijn de microformats heel duidelijk gedefinieerd, waardoor ze eenvoudig te beschrijven zijn in semweb-termen. Aan de andere kant begint het besef door te breken dat een dergelijke massabeweging het gebruik van metadata op het web eindelijk tot een succes zal kunnen maken (The Shortest Path to the Future Web, Danny Ayers voor IEEE Internet Computing, dec. 2006)35.

Door deze kruisbestuiving kan het ontstaan van het semweb uiteindelijk via een proces van evolutie lopen. Kleine stapjes tegelijk, waarbij technieken die niet gebruikt worden ook weer (tijdelijk) vergeten worden. Langzamer dan een van bovenaf opgelegde revolutie, maar diep verankerd in de belevingswereld van de gebruikers van het web zelf.

Over de auteur

Johannes La Poutre is webarchitect en pionier op het gebied van internettechniek. Hij volgt de ontwikkelingen van het Semantic Web op de voet en realiseert projecten die deze technieken in de praktijk toepassen.

Zijn achtergrond is breed: industrieel ontwerper, ervaring in de grafische branche (reclame) en een lange carrière als webontwikkelaar bij Nederlands grootste internetproviders. Sinds een jaar zelfstandig adviseur en webontwikkelaar.

Visie: techniek onzichtbaar laten worden ten gunste van de beleving.

Bronnen

  1. Tim Berners-Lee – Wikipedia ga terug naar de content
  2. Wiki – Wikipedia, the free encyclopedia ga terug naar de content
  3. Semantic Web – Wikipedia ga terug naar de content
  4. RSS – Wikipedia ga terug naar de content
  5. Tim O’Reilly ga terug naar de content
  6. What Is Web 2.0. Design Patterns and Business Models for the Next Generation of Software ga terug naar de content
  7. HousingMaps ga terug naar de content
  8. Craigslist ga terug naar de content
  9. Google Maps ga terug naar de content
  10. Tag (metadata)- Wikipedia ga terug naar de content
  11. Del.icio.us ga terug naar de content
  12. Flickr ga terug naar de content
  13. Folksonomy – Wikipedia ga terug naar de content
  14. Technorati ga terug naar de content
  15. Blogosphere – Wikipedia ga terug naar de content
  16. Tantek’s Thoughts ga terug naar de content
  17. real world semantics ga terug naar de content
  18. microformats | About microformats ga terug naar de content
  19. microformats ga terug naar de content
  20. hcard – Microformats ga terug naar de content
  21. hcalender – Microformats ga terug naar de content
  22. Xhtml Friends Network ga terug naar de content
  23. hreview – Microformats ga terug naar de content
  24. xoxo – Microformats ga terug naar de content
  25. hresume – Microformats ga terug naar de content
  26. Technorati Microformats Search ga terug naar de content
  27. firefox-extensions – Microformats ga terug naar de content
  28. Live Clipboard – Wiring the Web ga terug naar de content
  29. Ray Ozzie – Wiring the Web ga terug naar de content
  30. Linkedin ga terug naar de content
  31. steve.ganz.blog – LinkedIn Launches hResume ga terug naar de content
  32. implementations – Microformats ga terug naar de content
  33. Alex Faaborg – Microformats – Part 1: Structured Data Chaos ga terug naar de content
  34. Alex Faaborg – Microformats – Part 2: The Fundamental Types ga terug naar de content
  35. The Shortest Path to the Future Web (PDF) ga terug naar de content
Be Sociable, Share!