CERN (deel 4) – De laatste weken

CERN (deel 4) – De laatste weken

Dat was het dan bijna, morgen (19-8-2016) zit mijn CERN avontuur er op en dit is dan ook de laatste Nederlandstalige post over mijn zomerstage bij CERN. De laatste weken is er ontzettend veel gebeurd: ik heb bezoek uit Nederland gehad, het project is in een stroomversnelling terecht gekomen en afgerond en ik heb afscheid genomen van mijn collega’s op CERN.

Nederlands Bezoek

Het was eindelijk zover! Na weken weinig Nederlanders gezien te hebben, kwamen mijn vriendin en moeder een weekendje op bezoek! Het was erg gezellig en we hebben veel gezien van Genève en een rondleiding gekregen op het CERN terrein. Hieronder volgt een kleine fotoreportage:

Genève.
CERN.
CERN.
CERN.


Genève.


Vriendin en moeder.

Dit is slechts een kleine selectie uit alle foto’s, maar in het kort: het was erg mooi weer, erg gezellig maar helaas ging het erg snel voorbij.

Het project

Voor mijn project moest ik een antwoord zien te vinden op de volgende vraag:

Is Apache Flink (software, uitgebracht in maart 2016) beter dan Apache Spark?

Apache Spark wordt al een tijdje gebruikt door CERN. Er komen per minuut honderden aanvragen voor data binnen van allerlei wetenschappelijke instellingen. Deze gebruikersdata wordt snel doorgelezen door software geschreven voor Apache Spark. Ik heb eerst onderzocht of de huidige software überhaupt kon worden overgezet naar de nieuwe software. Daarna heb ik gekeken welke software er beter presteerde.

De taken worden niet op één computer uitgevoerd, maar op een groep van computers (een cluster). Dit maakt het doormeten van de software lastiger, omdat je alle computer tegelijkertijd moet doormeten.

De postersessie

Mijn eerste grotere taak, was het maken van een poster waarmee ik op een postersessie aan iedereen de resultaten van mijn project kon laten zien. Helaas had ik nog geen resultaten van mijn experimenten toen ik de poster aan het maken was, dus besloten mijn begeleider en ik om voor een algemenere opzet te kiezen. Dit was het uiteindelijke resultaat:

Poster.

Hier heb ik erg veel van geleerd! Het is erg lastig om een poster op A0 formaat te maken, maar met de hulp van mijn begeleider en mijn vriendin is het helemaal goed gekomen.

Experimenteren en Presenteren

Helaas kreeg ik pas laat toegang tot de applicaties die geschreven waren in Apache Spark. Daardoor liep mijn project een klein beetje vertraging op. De week voor de presentatie was erg hectisch, maar met veel avonden, koffie en doorzettingsvermogen lukte het uiteindelijk. De metingen zelf waren niet erg spannend, maar wel tijdrovend. Het resultaat is veelbelovend! Het volgende resultaat laat zien hoe snel beide platformen (Apache Spark en Apache Flink) een relatief grote hoeveelheid data (100GB) kunnen sorteren:

Execution time for sorting 100GB of data.

Execution time for sorting 100GB of data.

Je kan zien dat Apache Flink de overduidelijke winnaar is! Apache Spark deed er 2x zo lang over om de data te sorteren. Het maken van de grafieken was uiteindelijk ook nog veel werk. Meer resultaten, de presentatie en het eindverslag kun je op deze pagina vinden. Uiteindelijk heb ik zelfs een compliment gekregen voor de analyse van één van de bedenkers van Apache Flink!

Mijn afscheid van CERN

εβίβα!

εβίβα!

Aan alles komt een eind, dus ook aan dit geweldige avontuur op CERN. Voor mijn Griekse en Estlandse collega’s had ik nog een kleine Nederlandse tractie: een pakje stroopwafels! Het viel erg in de smaak en het was gezellig! εβίβα/terviseks/proost!

TL;DR

Dat was het dan! Het was een onwijs gave ervaring en ik heb veel geleerd op CERN. Bedankt voor het lezen en graag tot de volgende blogpost!