3 Feb 2005

Website bouwers en de Belgische bus

Categorie: Column, Website ontwikkeling — lammert @ 22:09

Sinds ADSL over heel Nederland is uitgerold—en dus ook de kleine dorpjes in Friesland rechtstreeks op de digitale snelweg zijn aangesloten—verblijf ik meer tijd op internet. Het begint zoiets te worden als een radio. Er staat altijd wel een schermpje open en er wordt niet actief gezocht of gebrowsed, maar wanneer nodig kan even snel wat worden opgezocht via een zoekmachine of anderszinds.

Sinds enkele weken ben ik ook regelmatige bezoeker van WebmasterWorld, een forum waarin allen in de wereld die webmaster zijn—of vinden dat ze dat predikaat verdienen—met elkaar in discussie zijn. Ik heb mij ook in een aantal van die gesprekken geroerd waarbij ik vaak heb geprobeerd informatie aan te dragen waar mensen verder mee kunnen. Het is verbazend met hoe weinig kennis mensen tegenwoordig op internet een grote site willen bouwen en geld verdienen. Twee dagen geleden ben ik ook in een discussie terecht gekomen over de Google zandbak.

Voor de leken onder ons een uitleg van de Google zandbak. Zoals bekend zijn er op internet vele webpagina’s. Zoekmachines proberen al deze pagina’s te lokaliseren en daarna te indexeren. Wanneer iemand op een zoekmachine vervolgens een aantal zoekwoorden ingeeft worden de best passende pagina’s getoond. De drie grootste zoekmachines zijn op dit moment Google, Yahoo en MSN. Yahoo en MSN zeggen enkele miljarden pagina’s geindexeerd te hebben, Google heeft er naar eigen zeggen 8 miljard in zijn databases.

De Google zandbak is een fenomeen—althans volgens een aantal webmasters—dat nieuwe websites, of nieuwe pagina’s, in Google niet snel bovenaan in de zoekresultaten zullen eindigen. Google houdt er naar hun zeggen een speeltuin op na waar de jonge sites eerst heerlijk mogen dollen, en pas als ze volwassen zijn borrelen ze naar boven en krijgen mensen deze sites in de zoekresultaten te zien. De boventoon in deze discussie werd gevoerd door een aantal lieden die—kennelijk beneveld door hun eigen beperkte capaciteiten—de indruk hadden dat de zandbak werd veroorzaakt door een index systematiek die volgens hun slechts 4 miljard pagina’s toe liet. Alle andere pagina’s zouden vervolgens in de zandbak worden gedumpt tot er plek vrij zou komen in de hoofdindex.

Niet tot ieders genoegen heb ik in deze discussie een andere kant laten zien van het verhaal, en o.a. met publicaties van Google door de IEEE—een toonaangevende koepelorganisatie voor ingenieurs in de VS—geprobeerd een wat breder beeld voor te toveren. Ik heb niet ontkend dat een zandbak bestaat, maar wel dat het hoogst onwaarschijnlijk is dat puur technische oorzaken aan de zandbak ten grondslag liggen. Dit is uiteraard vloeken in de kerk, want dat betekent dat er inhoudelijke redenen van een website zijn om deze te weren uit de topposities in de zoekresultaten. En dat is tegen het zere been van velen. Allen vinden ze dat hun site zo goed is, dat elke internet surfer dolgraag naar hun site wil komen.

Ik heb tijdens deze discussie mijn lachen werkelijk niet in kunnen houden, hoewel de meesten er waarschijnlijk heel serieus mee omgingen. Het verhaal deed me namelijk denken aan een zeker 20 jaar oude Belgenmop:

Weet je waarom in België de bussen zo breed zijn?
Nou, iedereen wil vooraan bij het raampje zitten

En zo is het met de zoekmachines ook. De meeste mensen die een zoekmachine gebruiken komen niet verder dan de eerste twee pagina’s. Daarna hebben ze gevonden wat ze zochten, of ze zoeken op een andere manier. De meeste zoekopdrachten leveren honderdduizenden tot miljoenen resultaten op. Is het dan gek dat de meeste sites niet naar boven komen borrelen. Op de eerste twee pagina’s passen 20 sites, oftewel fracties van procenten van het totale aanbod van pagina’s over een bepaald onderwerp. Het is dus niet zo gek, dat Google selectiecriteria hanteert, en ouderdom—wijsheid—kan daar best één van zijn. Tenslotte is het percentage oudere websites dat interessante informatie bevat veel groter dan het percentage nieuwe websites, gezien het grote aantal automatisch gegenereerde zgn. spamsites waarbij alleen maar pagina’s van al bestaande websites zijn gekopiëerd en in een grote database gezet.

Lammert

Captchas en blog spam

Categorie: Over webloggen — lammert @ 11:22

Mijn blog bij xs4all wordt periodiek geraakt door blog spam. Commentaar waarin alleen maar links naar websites zijn opgenomen om op die manier de positie van die websites in de zoekmachines te verbeteren. Xs4all heeft nu een zgn. captcha control ingevoerd. Een invulblok waarin een code van drie karakters moet worden ingevuld om te bewijzen dat je een mens bent.

Vanochtend vond ik weer twee spam commentaren in mijn blog, wederom van Chinese makelij. Het is mij nu echter wel duidelijk welk intelligent algoritme deze mensen gebruiken. Ik vond namelijk een referal link vanaf Google. Het is dus heel simpel. Ergens in een boerenschuur in China zitten een stel laagbetaalde Chinezen die via Google geschikte doelen opzoeken. Ze surfen daar heen, kopieren hun linkblok in het commentaar en vullen handmatig de captcha code in. Kortom, de captcha code is er niet meer om te bewijzen dat je een mens bent, het is voldoende om te bewijzen dat je een Chinees bent.

22 queries. 0.123 seconds.