Després del diluvi
En l’última dècada s’han establert, si més no en la percepció col·lectiva, diverses veritats fonamentals sobre l’estat de la informació com a primera matèria i el seu paper en el món. A saber:
- La quantitat de dades que som capaços de produir, transmetre i emmagatzemar creix a un ritme que no té precedent.
- Com que cada vegada resulta més barat i senzill emmagatzemar-les, val la pena emmagatzemar-les per principi.
- En aquests volums d’informació hi ha grans bosses de coneixement valuós que en pot ser extret. Això sí, sempre que siguem capaços de «llegir-lo», cosa que resulta cada vegada més complexa a mesura que el seu volum augmenta. Tenir més dades obliga a desenvolupar noves maneres d’interpretar-les.
- L’extrema facilitat amb què les organitzacions produeixen dades avui queda contrarestada per l’ansietat que genera la possibilitat que estiguin deixant escapar el valor que hi ha enterrat, de no ser capaços de filtrar la palla i extreure’n fins al darrer gra.
Institucions científiques, empresarials i governamentals han desplegat una àmplia infraestructura tecnològica per capturar i emmagatzemar tantes dades sobre cada fase dels seus processos com sigui possible. S’ha invertit en nous camps de coneixement –la nova ciència de les dades– i en professions emergents: del data scientist a l’analista de dades i l’expert en visualització de la informació. Però la realitat és que, pel que fa al control de la informació que produeixen, la majoria de les grans organitzacions viuen permanentment desbordades. En paraules d’un comandament militar nord-americà, «estem nedant en sensors i ofegant-nos en dades».
Aquesta condició és característica de l’era del diluvi de dades.
La idea que vivim en l’ona expansiva d’una gran explosió d’informació no és estrictament nova. La percepció que la quantitat de dades que som capaços de produir no deixa d’incrementar-se fins a arribar a volums immanejables apareix alhora que la informació esdevé una indústria real implementada en cada vegada més processos administratius. El primer ús registrat de l’expressió information explosion apareix el 1961 en una publicació acadèmica, i pràcticament alhora en un anunci d’IBM en el New York Times. El seu equivalent contemporani, una mica menys dramàtic però igualment efectista, és el «diluvi» o «tsunami» de dades, termes que esdevenen comuns entre la comunitat acadèmica i la premsa econòmica a mitjan dècada passada.
Hi ha diverses maneres d’expressar el vertigen que produeix l’explosió de dades, i la més tècnica és probablement l’anomenada llei de Kryder. Si la famosa llei de Moore ha predit durant diverses dècades de manera més o menys correcta la velocitat a la qual progressa la capacitat de processament dels ordinadors –el doble cada 18 mesos–, la llei de Kryder intenta expressar amb precisió el ritme al qual augmenta la nostra capacitat d’emmagatzemar cada vegada més informació digital en un espai determinat.
El 2014, aquesta fotografia és probablement una manera més efectiva d’entendre la mida de l’onada i el caire del diluvi. Fa cinquanta anys, un disc dur era un enorme dispositiu de la mida d’un utilitari petit amb una memòria que era capaç d’emmagatzemar l’equivalent a una cançó en format MP3; una ridícula porció de la capacitat d’emmagatzematge del telèfon que duem a la butxaca dels pantalons o a la bossa de mà.
El viatge des de la cinta de paper i les targetes perforades –els primers formats d’emmagatzematge informàtic dels anys quaranta del segle xx– fins als suports d’avui com els llapis USB o les minitargetes SD, és una altra representació de la llei de Kryder molt eloqüent. En la tensió entre un contenidor que es redueix i alhora s’expandeix infinitament en la seva capacitat d’emmagatzemar contingut trobem la millor expressió d’aquest vertigen.
A mesura que la nostra experiència personal i la nostra biografia es codifiquen en aquests suports magnètics, òptics o rígids, el problema de la seva preservació a llarg termini esdevé més urgent. Si la nostra història col·lectiva està preservada en els milers de data centers que hem escampat arreu del globus, la seva funció pot passar de ser merament operativa a ser arxivística. I, tanmateix, no tenim cap estratègia real sobre com mantindrem tota aquesta informació accessible i utilitzable en el futur. Acords com el que permet a la Biblioteca del Congrés americana emmagatzemar una còpia del flux de missatges de Twitter semblen garantir que conservarem uns quants arxius importants, però cada vegada que mor una Startup o un servei és comprat per un gegant d’Internet per acabar llanguint, les dades que havia produït i que preservaven poden desaparèixer per sempre, instantàniament, sense deixar rastre.
La més important de les noves institucions arxivístiques és probablement l’Internet Archive de Brewster Kahle. Des del 1996, l’Internet Archive rastreja i «fotografia» metòdicament la web, per preservar instantànies de com era Internet en un dia qualsevol d’un any concret, lluitant contra el seu caràcter dúctil i constantment inestable. Aquesta bella pel·lícula de Jonathan Minard revela la infraestructura física que, en una església dessacralitzada de San Francisco, en fa possible el funcionament. Fa poc, un incendi en va posar en perill el valuós llegat; per sort, només va afectar les instal·lacions en què es digitalitzen llibres impresos.
De moment, el diluvi de dades no ofereix cap senyal que vulgui amainar, i és probable que la llei de Kryder continuï la seva progressió. Potser el pas següent, el següent salt de magnitud, es trobi en el suport que utilitza la naturalesa per emmagatzemar les seves dades.
A l’Institut Europeu de Bioinformàtica de Cambridge –el més gran magatzem de seqüències genòmiques del continent–, s’emmagatzema informació digital molt sensible i que és essencial conservar accessible durant moltes dècades. Els discos durs, que cal substituir periòdicament i que cal mantenir refrigerats, estan lluny de ser el suport idoni per preservar aquest codi de la vida. Són, de fet, una tecnologia molt pitjor que el mateix ADN.
La paradoxa no ha passat per alt al zoòleg i matemàtic Nick Goldman, un dels «bibliotecaris de la vida» que s’encarrega de mantenir les bases de dades de l’EBI: mentre que els nostres suports informàtics són fràgils, ocupen espai i són difícils de mantenir, l’ADN pot emmagatzemar una gran quantitat d’informació en molt poc espai, durant milions d’anys. Al gener del 2013, Goldman i el seu equip van anunciar que havien aconseguit transferir 739 modestos kilobits de dades a una cadena d’ADN. Més endavant, un ordinador va aconseguir descodificar-los i llegir-ne els continguts: els 154 sonets de Shakespeare, un article acadèmic, una foto del laboratori dels investigadors, 26 segons del més cèlebre discurs de Martin Luther King i un algoritme de software. És tan sols el començament, però a l’EBI tenen grans metes per a la tècnica que han desenvolupat: el seu objectiu a llarg termini és aconseguir emmagatzemar l’equivalent d’un milió de CD en un gram d’ADN, amb una longevitat mínima de deu mil anys.
José Luis de Vicente
Publicat al CCCB LAB 4-2-2014
–
Imatge de capcelera: Herman Hollerith (1860-1929). Font: Library of Congress
Deixa una resposta