Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Migration of unmigrated content due to installation of a new plugin

Bedrijfsgegevens

bol.com

Keulsekade 189, Utrecht

Tom Smits <tsmits@bol.com>

Achtergrond

Google is 24 uur per dag bezig om onze pagina’s te crawlen en in haar zoekmachine-index te stoppen. We zouden graag meer inzicht willen hebben wat Google nu juist heel vaak crawlt, wat ze minder crawlen en waar ze vrijwel nooit crawlen. Als we weten wat Google fijn vindt, dan kunnen we daar beter op inspelen en betere technische keuzes maken:

  • Pagina’s die weinig gecrawld worden zouden we dus juist moeten activeren.
  • Daarnaast zou een dergelijke tool onze verbeteringen moeten bewijzen. Bijvoorbeeld door kortere URLs toe te passen per 10 oktober 2013 zou het aantal crawls toe moeten nemen. 
  • Bepaalde pagina’s voorzien van een noindex-tag zou ertoe moeten leiden dat andere pagina’s vaker gecrawld gaan worden.
     

Deze crawldata wordt opgeslagen in een txt-bestand van dagelijks circa 600 mb, 1,8 miljoen regels.

Een voorbeeldregel:

 

Code Block
/san/logs/production/bolpws101/live-access-2013-09-16.log.gz:66.249.78.221 - - [16/Sep/2013:00:00:01 +0200] "GET /nl/c/boeken/engelse-boeken-d-m-rogers/7008122/N/8299+8292/sc/books_en/index.html HTTP/1.1" 200 16546 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" 0 "UjYt4cCoEJgAAGOd460AAAN@" "-" "295781" "ps1330"

 

We zien dus dat de googlebot deze pagina heeft gecrawld: /nl/c/boeken/engelse-boeken-d-m-rogers/7008122/N/8299+8292/sc/books_en/index.html, op 16 september om 1 seconde over 00:00

Opdracht

Ontwikkel een parser die de crawldata kan verwerken in een storage (relationeel mag, maar hoeft niet) en laat zien middels een eenvoudig dashboard welke aanpassingen en verbeteringen bol.com kan maken. 

Keywords

Java SE

Apache Camel, Spring Batch of een andere integratieoplossing

Gezien het enorme aantal visits met vele verschillende zoektermen vanuit Google is het lastig om een goed overzicht te krijgen van de populairste zoektermen.

...

.