Achtergrond
Google is 24 uur per dag bezig om onze pagina’s te crawlen en in haar zoekmachine-index te stoppen. We zouden graag meer inzicht willen hebben wat Google nu juist heel vaak crawlt, wat ze minder crawlen en waar ze vrijwel nooit crawlen. Als we weten wat Google fijn vindt, dan kunnen we daar beter op inspelen en betere technische keuzes maken:
- Pagina’s die weinig gecrawld worden zouden we dus juist moeten activeren.
- Daarnaast zou een dergelijke tool onze verbeteringen moeten bewijzen. Bijvoorbeeld door kortere URLs toe te passen per 10 oktober 2013 zou het aantal crawls toe moeten nemen.
- Bepaalde pagina’s voorzien van een noindex-tag zou ertoe moeten leiden dat andere pagina’s vaker gecrawld gaan worden.
Deze crawldata wordt opgeslagen in een txt-bestand van dagelijks circa 600 mb, 1,8 miljoen regels.
Een voorbeeldregel:
/san/logs/production/bolpws101/live-access-2013-09-16.log.gz:66.249.78.221 - - [16/Sep/2013:00:00:01 +0200] "GET /nl/c/boeken/engelse-boeken-d-m-rogers/7008122/N/8299+8292/sc/books_en/index.html HTTP/1.1" 200 16546 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" 0 "UjYt4cCoEJgAAGOd460AAAN@" "-" "295781" "ps1330"
We zien dus dat de googlebot deze pagina heeft gecrawld: /nl/c/boeken/engelse-boeken-d-m-rogers/7008122/N/8299+8292/sc/books_en/index.html, op 16 september om 1 seconde over 00:00
Opdracht
Ontwikkel een parser die de crawldata kan verwerken in een storage (relationeel mag, maar hoeft niet) en laat zien middels een eenvoudig dashboard welke aanpassingen en verbeteringen bol.com kan maken.
Technologie
Java SE
Apache Camel, Spring Batch of een andere integratieoplossing.