Richard Hinkamp

Ik plaats af en toe een blog of een quote.

Hoe ijverig zijn spinnen?

Geplaatst op 10-05-2006

De mensen van DrunkMenWorkHere.org hebben een onderzoek gedaan naar de spiderbots van de drie grootste zoekmachines; Google, Yahoo! en MSN. Voor dit onderzoek hebben ze een fictieve site gemaakt met daarin 2.147.483.647 (231) pagina's. Voor elke pagina heeft men een jaar lang bijgehouden of en hoevaak er bezoek kwam van bots van Yahoo!, Google en MSN. Naast veel getallen, grafieken en mooie animaties, leverde dat ook enkele interessante bevindingen op.

De bots

Voor het onderzoek werden de spiderbots van drie grote zoekmachines gevolgd. Voor Yahoo! deed Yahoo! Slurp mee, Google zette de Googlebot in en MSN maakte gebruik van MSNbot. Op elke pagina werd elk bezoek van een van deze bots geregistreerd. Hierdoor is op elke pagina goed te zien wanneer er een bot is geweest en hoe vaak in die in totaal langs is geweest.

Yahoo! Slurp

Yahoo! Slurp BoomDe eerste spiderbot die verwelkomt mocht worden was die van Yahoo!, de Yahoo! Slurp. De eerste twee uur was de spiderbot erg actief, zie ook de animatie. Toen de spiderbot 30.000 pagina's bezocht had, werd er abrupt gestopt met het bezoeken van de pagina's. Blijkbaar vind Yahoo! 30.000 pagina's genoeg voor een nieuwe site. De rest van maand waren er weinig bezoekjes van Slurp te registreren.

Na een maand kwam Slurp weer vol energie terug, alle 30.000 pagina uit het eerste bezoek werden opnieuw bezocht en ook nu hield Slurp het hierna voor gezien. Zo ging het ook de volgende drie maanden, maar hierna ging Slurp toch verder kijken. In deBezochte pagina's door Yahoo! Slurp vijfde maand bezocht Slurp nog eens 30.000 pagina's en had het dus 60.000 unieke pagina's bezocht. Na wederom een maand rust, werd er gedurende drie maanden dat aantal geleidelijk aan uitgebreid naar 90.000. Na een pauze van twee maand, werden er in de laatste twee maanden nog zo'n 15.000 andere pagina's bezocht, zodat het totaal aantal unieke pagina's dat door Slurp bezocht werd, uit kwam op 105.971.

Zie ook de animatie van het bezoek gedurende het hele jaar.

Googlebot

Googlebot boomDe Googlebot pakte het anders aan. Vanaf de begin pagina werd voornamelijk de rechter tak gevolgd en nauwelijks de linker. Zou de Googlebot een link “right branch” interessanter vinden “left branch”? Er werd 20 niveaus diep alleen de rechter tak gevolgd, dat kan geen toeval zijn, maar zal een beslissing van de bot zijn zou je zeggen. Waarop zou die beslissing gebaseerd zijn?

Dit is niet de enige eigenaardigheid van de Googlebot. De Googlebot vereerde namelijk ook pagina 1, de meeste linkse pagina, 30 niveaus diep, met een bezoek. Op zich niet zo gek, maar deze pagina werd rechtstreeks benaderd en niet via de boom structuur gevonden. Hoe komt de Googlebot aan de url van pagina 1? Zou er ergens op het web een link hebben gestaan naar die pagina, of zou de Googlebot de url hebben gegokt? Via de “to trunk” link kwam de bot ook op pagina 2, waarna die het voor gezien hield. Een week later lijkt de bot op zoek te gaan naar pagina 1 en 2. Er wordt begonnen bij het begin en door elke keer de linker tak te volgen, komt de bot uiteindelijk bij pagina 2. Tijdens deze actie werd weer heel duidelijk elke keer voor “left branch” gekozen. Het lijkt een bewuste keuze van Googlebot, maar waarom?

Rare vertakking Google boomDe Googlebot vindt het minder interessant naarmate die dieper in de boom komt. Rond niveau 20 wordt de zoekactie veelvuldig gestaakt. Een gekke uitzondering is pagina 1073872896 op niveau 18. Hier begon de bot op 23 juli 2005 en ging in enkele uren tijd vanaf hier verder de boom in bezocht 600 onderliggende pagina's. Waarom die zo diep in de boom begon is een grote vraag. Buiten deze vertakking kwam de bot weinig op niveau 30 terecht.

Zoals Yahoo! Slurp, deed ook de Googlebot het de eerste maanden rustig aan. In de eerste 3 maanden zat er weinig stijging in het aantal bezochte pagina's. Hierna schoot het aantaBezochte pagina's door Googlebotl ineens omhoog van nog geen 200 naar 1000. Na een kleine maand rust werden er nog 500 andere pagina's bezocht. Na zes maanden begon de bot regelmatig langs te komen en nieuwe pagina's te bezoeken. Een maand later was het aantal unieke bezochte pagina's gestegen van 1500 naar ruim 5000. Hierna werden er gestaag meer pagina's bezocht om uiteindelijk uit te komen op een aantal van 7.556.

Zie ook de animatie van het bezoek gedurende het hele jaar.

MSNbot

MSNbot boomDe bot van MSN was het minste actief. Zowel het aantal keren dat die langs kwam, als het aantal unieke bezochte pagina's was fors lager dan dat van de Googlebot en zeer veel lager dan Yahoo! Slurp.

Wat meteen opvalt in de boom is de losse tak aan de rechterkant. Deze tak zit niet vast aan de boom, dus de MSNbot is hier rechtstreeks naar toe gegaan. Hier kwam de bot door een link op masterpigg.com (site is down, maar Google heeft hem nog in de cache). Vanaf de link op masterpigg.com is de bot ver de boom in gekropen, maar de andere kant op, richting het begin (“to trunk”), hield die er snel mee op. Hierdoor heeft de bot deze tak ook niet kunnen verbinden aan de boom van al bezochte pagina's. Het zelfde geldt voor de tak aan de bovenkant, deze keer veroorzaakt door een link van uu-dot.com, maar deze tak is wel een stuk kleiner omdat de link wees naar een pagina's aan het einde van de boom. Zoals we bij de andere tak ook zagen, kruipt de bot liever verder de boom in dan dat die terug kruipt naar het begin. Beide links zijn trouwens ook gevolgd door Yahoo! Slurp en de Googlebot, maar aangezien die bomen veel groter waren, vielen ze daar nauwelijks op.

Het bezoekpatroon van de MSNbot lijkt veel op die van de andere bots. In heBezochte pagina's door MSNbott begin veel periodes wanneer er niets gebeurt, gevolgd door een plotseling stijging van 50% tot 100%. Opvallend is dat de MSNbot na vijf maanden nauwelijks nog oog heeft voor de site. Af en toe valt er nog een bezoekje te registreren, maar er worden geen nieuwe pagina's bezocht. Uiteindelijk heeft de MSNbot na een jaar slechts 4.699 unieke pagina's bezocht.

Zie ook de animatie van het bezoek gedurende het hele jaar.

Spam bots

Naast de bots van zoekmachines, kwamen er ook regelmatig spam bots langs. Aangezien er een reactie mogelijkheid op elke pagina's was, was het een interessante site voor deze bots. Deze spam bots hebben op 103 verschillende pagina's in totaal 5265 reacties achtergelaten. Het grootste deel hiervan (3652) was op de begin pagina gepost. Saillant detail is dat deze bots ook reacties hebben toegevoegd op 32 pagina's waar geen van de drie zoekmachine bots zijn geweest.

Indexering

Er zijn dus grote verschillen in de aantal pagina's die bezocht zijn door de verschillende bots, maar de echte vraag is natuurlijk of die aantallen invloed hebben op de indexering. Ook hier wint Yahoo! het als er wordt gekeken naar het aantal pagina's in de index. Yahoo! zegt Pagina's bezocht120.000 pagina's van de boom in de index te hebben. Aangezien er maar 105.971 pagina's bezocht zijn, zal dat waarschijnlijk een afrondingsfout zijn, of er zijn pagina's dubbel geïndexeerd op drunkmenworkhere.org en ww.drunkmenworkhere.org. Google heeft er 554 in de index, wat toch veel minder is dan de 7.556 bezochte pagina's. MSN heeft het minst aantal pagina's (4.699) bezocht en heeft maar één pagina van de boom in de index.

Het lijkt alsof Yahoo! het goed voor elkaar heeft, bijna alle bezochte pagina's komen in de index, maar is dat wel gunstig? Dat hangt natuurlijk helemaal af van de zoek logica die Yahoo! gebruikt, dat het in de index zit betekent niet perse dat alle pagina's gevonden worden. Aangezien er vrij weinig tekst op de pagina's staat en deze ook nog eens minimaal 80% hetzelfde is op alle pagina's, valt er weinig zinnigs te zeggen over de effectiviteit van de zoekmachine.

Pagina's bezocht per niveauDe Googlebot heeft dus flink minder pagina's bezocht en daarnaast is ook nog maar een deel daarvan in de index gekomen. Wellicht heeft Google bij de bezochte pagina's veel (bijna) dezelfde pagina's gevonden en daarom besloten deze niet op te nemen in de index? Vreemd is dat Google pagina 1 en 2 als eerste resultaten geeft, terwijl die toch heel diep in de boom zitten. Zou dat komen omdat de URL van die pagina's zo kort is vergeleken met de rest? De volgende pagina's in de resultaten zijn van pagina's van niveau vier, waarschijnlijk worden de pagina's op de eerste drie niveaus bestraft voor de hoeveelheden spam in de reacties, gelukkig maar.

pageviewsHet is uiterst merkwaardig dat MSN maar één pagina in de index heeft. Zonder de reactie mogelijkheid zou ik MSN gelijk kunnen geven, in basis zijn alle pagina's in de boom hetzelfde, alleen hoe vaak er een bot langs is geweest verschilt, dus is alles indexeren niet zinnig. Door de reactie mogelijkheid zijn er ook pagina's gekomen die meer (andere) tekst hebben, waarom zitten die niet in de index? Waarom is de pagina's die gelinkt werd vanaf masterpigg.com niet in de index opgenomen? MSN wist niet eens dat die pagina onderdeel van de boom is, aangezien ze die tak nooit hebben kunnen verbinden aan de boom.

Vervolg onderzoek?

Het is een leuk onderzoek met veel getallen en grafieken als uitkomst, maar heel veel zinnige data valt er nog niet uit te halen. Is Yahoo! Slurp de beste omdat die zoveel pagina's heeft bezocht, of is MSNbot beter omdat die (wellicht) door had dat de pagina's praktisch hetzelfde zijn allemaal?

Alhoewel er mooie grafieken zijn van de bezochte pagina's en dergelijk, is er geen inzicht in de mutatie van de index van de zoekmachines. Wanneer dat ook automatisch bijgehouden kan worden, kan er inzicht worden verschaft in het verband tussen de aantal bezoeken, tijd en indexering. Groeit de index even snel als het aantal bezochte pagina's? Hoe lang duur het voor er überhaupt een pagina in de index verschijnt?

De test zou veel interessanter worden als er ook tekst op de pagina's staat. Wanneer elke pagina 5-10 paragrafen tekst bevat, lijkt het voor een bot wellicht een veel interessantere boom te zijn. Dan valt er misschien ook meer te zeggen over de indexering, er is op elke pagina dan ook daadwerkelijk wat te indexeren. Het grootste probleem is natuurlijk om tekst te krijgen voor al die pagina's, maar wellicht dat daar een bot voor geschreven kan worden?