Google’s strijd tegen comment spam
Dat internet een snel medium is waar ook snel beslissingen kunnen worden genomen blijkt wel uit de aankondiging van vandaag van Google dat ze een nieuwe functionaliteit in hun zoekmachine gaan inbouwen waarbij de website eigenaar de mogelijkheid krijgt om uitgaande links aan te geven als niet meetellend voor de page rank. Binnen 24 uur is dit voorstel omarmd door de twee grootste concurrenten Yahoo en MSN, iets waar in andere takken van de industrie jaren van commisies en rapporten voor nodig zijn.
Doel is om de grote hoeveelheid comment spam die nu op weblogs binnenkomt te beteugelen. Voor de mensen die van niets weten een korte achtergrond.
Een weblog—zoals deze—is een vorm van een website waarbij mensen van buiten gemakkelijk interactief mee kunnen doen door middel van het reageren op berichten. Dit gaat buiten de website beheerder om, de funtionaliteit om commentaren te geven staat direct op de site. Dit geeft een betere mogelijkheid van communiceren met een breder publiek dan met e-mail communicatie. Maar ook spammers hebben dit medium ontdekt.
Wanneer een website hoog in de resultaten van een zoekmachine wil komen—met name Google—dan is één van de belangrijke eisen, dat andere websites die site belangrijk vinden. Google heeft hiervoor een gepatenteerd systeem met de naam page rank. Dit is een algoritme dat berekent hoeveel links van andere websites naar die ene site verwijzen. Je kunt een link zien als een stem tijdens parlementsverkiezingen. Meer links betekenen meer stemmen en zo kan een site met voorkeursstemmen hoog in de zoekmachine zoekresultaten komen. Tot voor enkele jaren was dit een goed principe. Links konden toen (praktisch) alleen worden toegevoegd door de directe beheerder van sites zelf, dus een stem op een website kwam in de praktijk dus eigenlijk overeen met een persoonlijke stem van die beheerder.
Sinds de weblog is dat veranderd. Iedereen kan bij een weblog commentaar toevoegen, en vaak is daar ook de mogelijkheid om links naar andere websites in te voegen, bijvoorbeeld om iets te verduidelijken. Maar de sitebeheerder heeft geen directe controle meer over deze inhoud. De zoekmachines zien de link en denken dat het een legitieme stem is van de beheerder voor een specifieke website, maar in de praktijk is die link niet door hem geplaatst, mogelijk door de beheerder van die andere website zelf. Dit gaat zover, dat nu vele automatische programma’s actief zijn die het internet afstropen naar weblogs (waarvan er vele tienduizenden zijn) en willekeurige commentaren daar bij plaatsen. Google en andere zoekmachines kunnen slechts moeilijk het verschil zien tussen deze namaak commentaren en echte commentaren, dus worden alle links die er in voorkomen als normale stemmen geteld.
Dit is natuurlijk niet goed, en Google heeft nu bedacht dat in een link opgenomen kan worden dat deze niet als stem meegeteld wordt, door het rel=”nofollow” attribuut. Dit moet door een update in de blogsoftware worden toegevoegd. WordPress heeft al aangekondigd dit te willen doen en ook andere software fabrikanten gaan hiermee aan de slag. Zelfs Google concurrenten MSN en Yahoo gaan binnen enkele wegen deze nofollow tag implementeren.
OK, dit klinkt heel mooi, maar er zit een onbedoelde keerzijde aan deze nieuwe optie. Een webmaster kan nu namelijk ook zich onthouden van stemming door bij reguliere links deze optie toe te passen. Bij de berekening van de page rank—de relatieve waarde van een website—worden inkomende links namelijk als voorkeursstemmen meegeteld, maar uitgaande links gaan weer van dit saldo af. Door slim gebruik te maken van deze tag kan een webmaster dus zijn pagerank helemaal binnenboord houden en geen enkele waarde meer aan andere sites afstaan. Dit ondergraaft het directe principe van de Google ranking waarin alle links een gelijke waarde hebben, net als bij normale verkiezingen. Gewiekste webmasters konden vroeger alleen de ranking van hun site verhogen door meer links van buiten te vragen of in te kopen. Nu kunnen ze dat intern doen door alle uitgaande stemmen te blokkeren.
Het is dus maar afwachten in hoeverre dit uiteindelijk gaat uitwerken. In een blog bij xs4all heb ik al mijn vraagtekens gezet hoe dit op de korte termijn zal uitwerken op de hoeveelheid comment spam in de weblogs. De lange termijn kan wel eens heel interessant worden om te zien of de ranking mechanismen van Google en anderen nog overeind blijven staan, of dat zoekmachines—na de snelle opkomst van Google eind jaren negentig—een nieuwe revolutie te wachten staan.
Lammert