bol.com
Keulsekade 189, Utrecht
Tom Smits <tsmits@bol.com>
Google is 24 uur per dag bezig om onze pagina’s te crawlen en in haar zoekmachine-index te stoppen. We zouden graag meer inzicht willen hebben wat Google nu juist heel vaak crawlt, wat ze minder crawlen en waar ze vrijwel nooit crawlen. Als we weten wat Google fijn vindt, dan kunnen we daar beter op inspelen en betere technische keuzes maken:
Deze crawldata wordt opgeslagen in een txt-bestand van dagelijks circa 600 mb, 1,8 miljoen regels.
Een voorbeeldregel:
/san/logs/production/bolpws101/live-access-2013-09-16.log.gz:66.249.78.221 - - [16/Sep/2013:00:00:01 +0200] "GET /nl/c/boeken/engelse-boeken-d-m-rogers/7008122/N/8299+8292/sc/books_en/index.html HTTP/1.1" 200 16546 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" 0 "UjYt4cCoEJgAAGOd460AAAN@" "-" "295781" "ps1330" |
We zien dus dat de googlebot deze pagina heeft gecrawld: /nl/c/boeken/engelse-boeken-d-m-rogers/7008122/N/8299+8292/sc/books_en/index.html, op 16 september om 1 seconde over 00:00
Ontwikkel een parser die de crawldata kan verwerken in een storage (relationeel mag, maar hoeft niet) en laat zien middels een eenvoudig dashboard welke aanpassingen en verbeteringen bol.com kan maken.
Java SE
Apache Camel, Spring Batch of een andere integratieoplossing.