Pages Menu
Categories Menu

Posted in Blogg

Crawlerproblemer på Sesam

Vi skiftet til adaptiv crawler for et halvt år siden. Fordelen med den adaptive, fremfor den tidligere crawleren vår, er at den tar bedre vare på nettsteder som oppdateres hyppig: Vi vil både ha med oss de siste endringene på VGNett samtidig som vi skal stikke innomMobilquiz, som jeg vet oppdateres sjelden, en gang iblant for å se om den har blitt oppdatert.

Fast-crawlere opererer vanligvis i sykler. Den har en avgrenset tidsperiode hvor den skal innom flest mulig nettsider. Er syklusen for kort, rekker den ikke å komme rundt hele det norske nettet. Er den for lang, får man ikke inn nok nytt innhold, og heller ikke luket vekk gammelt innhold som ikke lenger ligger ute.

Den adaptive crawleren er et forsøk på å imøtekomme disse motsetningene. Den har en lang syklus for å rekke rundt til flest mulig nettsider, men også flere mikrosykler som skal håndtere nettsteder med hyppig oppdatering.

Dessverre fungerte ikke dette slik som det skulle her hos oss. Det endte med at vi fikk masse døde lenker og dårlig oppdatering av både store og små nettsteder. For å imøtegå dette har vi gått tilbake til en tidligere crawlerkonfigurasjon som i det minste sørger for at vi har oppdatert innhold.

Vi har ikke gitt opp adaptiv crawl, men jobber med å få den til å virke optimalt for norske forhold. Den kommer nok opp igjen i løpet av et par måneder. I mellomtiden har vi pusset og flikket på den gamle crawleren vår for å få mest mulig fart på den, og i løpet av de siste 14 dagene har vi vært over mesteparten av indeksen vår, og ferskt innhold vil bli stadig mer synlig.