Complejidad, heterogeneidad y dispersión en GRID
Cloud Computing, Reflexiones, abiquo October 3rd, 2006
El 16 de Agosto de 1992, Steven Grimm publicaba en la lista alt.sources el código fuente de WorkMan, una aplicación que permitía reproducir audio-cd’s en estaciones Sun. Tiempo después, y cansado de introducir a mano los títulos de las canciones, se le ocurrió la idea de crear una base de datos compartida en la que los usuarios pudiesen introducir esos datos identificando los cd’s. Más tarde, Workman inspiraria a los creadores de CDDB que acabaría siendo un estándar de facto para recopilar esta información.
En resúmen: un grupo de usuarios se organizan para proveer y abastecerse de información útil generada por ellos. El problema radica en la complejidad que ha ido adquiriendo la situación a lo largo del tiempo. Si en un principio existían cd’s identificados de forma única, en estos momentos el estándar son archivos MP3 (con las variaciones respecto a compresión y duración de la canción que conllevan). Es decir, la información útil actual (basada en metadatos ID3) es más compleja de identificar correctamente. Para solventar el problema han surfido proyectos como MusicBrainz que, mediante complejos algoritmos basados en fuzzy logic, analizan las canciones para detectar un patrón único que las identifique y utilizarlo para obtener los metadatos correctos.
En esta introducción nos hemos encontrado con un problema que incluía diferentes variables: información dispersa, heterogénea y valida que necesita ser analizada mediante complejos algoritmos. Un campo de cultivo ideal para crear proyectos basados en Grid Computing :)
Inmersos en la que consideramos primera generación de Grid, basada en el uso (¿intensivo?) de recursos físicos (CPU, HD, RAM…), la siguiente estará marcada por la información. Muchos proyectos necesitarán una elevada masa crítica de información que actualmente se encuentra dispersa en recursos heterogéneos.
Un ejemplo realista podría ser la investigación referente a SNP (Single Nucleotide Polymorphism), variaciones en secuencias de ADN que se producen entre especies o miembros de la misma. La complejidad, heterogeneidad y dispersión de estas bases de datos se puede observar en esta animación del National Center for Biotechnology Information.
Tras observar estas y otras situaciones, en think in grid estamos creando herramientas que permitan a diferentes organizaciones agregar su información para trabajar conjuntamente. Además, muchas de ellas seran liberadas para permitir una rápida adaptación a las necesidades de los usuarios.
Tenemos un interesante futuro por escribir. Stay tuned!


October 9th, 2006 at 6:16 pm
Hola,
que opináis de la siguiente noticia?:
http://www.lavanguardia.es/gen/20061009/51286731809/noticias/la-interconexion–entre-supercomputadores-abre-nuevos-horizontes-en-la-investigacion-espacial-madrid-agencia-europea-mare-nostrum-barcelona-internet.html
October 9th, 2006 at 7:01 pm
Alguien más informado que yo escribirá algo al respecto ;)
De momento vuelve a salir la palabra "Grid" en un periódico generalista