Tertúlia Recerca i Big Data | Una xarxa de computació global per al Gran Col∙lisionador d’Hadrons

  • CERN
28/07/2014

Tertúlia Recerca i Big Data | Una xarxa de computació global per al Gran Col∙lisionador d’Hadrons

28 de maig | Estació Beta

El CERN és el major laboratori de recerca en física de partícules del món. El dimarts 28 de maig, el Dr. José Flix Molina i el Dr. Antonio Pérez-Calero Yzquierdo, del Port d’Informació Científica de la UAB, ens van explicar la importància de la computació en la ciència moderna a partir de la seva experiència al CERN.

Des del seu centre a la UAB, aquests científics formen part de la xarxa del CERN, en el que estan involucrats diferents paisos. En total, uns 10.000 recercaires treballen remotament amb les dades generades allà, i al voltant 2000 persones treballen in situ a les instal·lacions de Suïssa.

En els darrers anys aquest centre ha guanyat protagonisme gràcies a la construcció del Gran Colisionador d’Hadrons, un accelerador de partícules que al 2013 va trobar el Bosó de Higgs, o l’incorrectament anomenada “partícula de deu”. El Gran Colisionador d’Hadrons es un “tub” de 15 metres de diàmetre i 22 de llarg que està soterrat a uns 100 metres. Allà s’acceleren protons a gairebé la velocitat de la llum, els fan xocar, i així busquen crear partícules que es poden trobar a l’univers.

Creació, enmagatzematge, distribució i tractament de dades

De cada colisió surten diversos tipus d’informació. Aquesta, en brut, té un tamany de 100GB per segon, que és filtrada per cada un dels detectors de les diferents informacions. Un cop passat el primer filtratge es procedeix al segon, realitzat en una granja de 15.000 ordinadors que també estàn sota terra. Totes aquestes dades van al centre de càlcul del CERN anomenat TIER 0. La manera en la que s’enmagatzema tota aquesta informació és en cintes magnètiques de gran capacitat, ja que un cop està grabada la informació, l’enmagatzematge té un cost energètic zero, cosa que no passa amb els discs durs.

Un cop les dades estàn a TIER 0, el centre de càlcul central, es transmeten a una sèrie de centres TIER 1, des d’on es redistribueix a altres centres. En aquests punts és on es queda enmagatzemada una còpia de seguretat de tota la informació generada.

Centres com el Port d’Informació Científica de la UAB, que es dedica a tractar part d’aquesta informació provinent del CERN, analitza dades en temps real, de manera que ha d’estar disponible en tot moment de l’any, tenir reserves energètiques suficients per subsistir durant una apagada, i tenir la capacitat de refrigerar tots els ordinadors que es fan servir per a les tasques científiques.

El factor “Big” del “Data”

El CERN crea un volum de dades sense precedents en un experiment, els analitza en temps rècord i produeix grans resultats científics.

CERN

Per exemple, una de les maneres de copsar la informació de les col·lisión és a través d’imatges: es filtren 40 milions de fotografies per segon, la majoria en temps real,i després es classifiquen, s’ordenen i es tracten estadísticament. En el cas del Bosó de Higgs, per exemple, es buscaven les característiques que responien a la composició d’aquest bosó fins que es va trobar. Peter Higgs, un físic britànic, va predir que això succeïria, i per això se li va posar el seu nom. Aquesta predicció li va valer el Premi Nobel de física al 2013.

Amb la informació procedent només de les fotografies, per exemple, es generen al voltant de 25 Petabytes (PB), és a dir 25 milions de GB a l’any (el que equival a uns 1000 anys de películes de DVD). Per a processar-les ténen repartides 300.000 CPUs per tot el món, i es calcula que de seguir el nivell de creixement en la generació de dades, al 2020 aquest serà el primer experiment científic que entra en l’escala de l’Exabyte.

Només a forma de comparació: Youtube genera 15 PB l’any, Facebook 180, Google Search 100, i el Gran Accelerador de Partícules 300 PB.

Deixa una resposta