La virtualidad llegó a la ciencia

La Universidad de los Andes está comprometida de lleno en la utilización del grid computing, una tecnología que permite crear centros de investigación virtuales para compartir recursos con investigadores nacionales, latinoamericanos y mundiales. Los ingenieros de sistemas y computación juegan un papel fundamental.

Como si se tratara de un enorme centro de investigación dotado con modernos y muy especializados equipos, en el que, además, hay profesionales idóneos para resolver aspectos muy puntuales de un problema, científicos de todo el mundo están creando laboratorios virtuales en la Red. El paso es posible gracias a una tecnología conocida como grid computing que funciona sobre redes avanzadas de tecnología en internet y permite poner al servicio de un propósito común recursos dispersos a través de todo el planeta. Entre ellos están: capacidad de cómputo, procesamiento y almacenamiento de datos, microscopios especializados, satélites y telescopios. Harlod Castro, ingeniero de sistemas y computación, director del grupo de investigación Comunicaciones y Tecnología de la Información COMIT, está encargado de desarrollar esa tecnología en la Universidad para unirla a las redes internacionales
y nacionales e incluso para desarrollar una interna en el campus. Esto hace parte del propósito de hacer de Los Andes un centro de investigación de alto nivel.

Esta es una forma de trabajo colaborativo que facilita crear un grupo de investigación y dotarlo con la infraestructura necesaria. “Ya no es solo para compartir archivos, como se hace con internet, sino compartir capacidad para investigar conjuntamente. El grid es el presente de la ciencia y rompe la distancia entre el Norte y el Sur en cuestiones tecnológicas y científicas”, explica este doctor en Informática del Instituto Nacional Politécnico de Grenoble (INPG, Francia).

La herramienta podría usarse en muchos campos, pero está enfocada en la ciencia, hasta el punto de que hoy en día se habla de e-ciencia. Entre sus virtudes está el permitir acometer investigaciones complejas para resolver problemas más grandes que requieren enormes recursos que no suelen estar disponibles en un solo lugar y que involucran la cooperación entre cientos de científicos dispersos en todo el mundo. Además, se aceleran los resultados porque la capacidad de procesamiento de los datos es mayor y se pueden ejecutar programas en muchos computadores simultáneamente, y todo ello con seguridad.

En el mundo se usa, por ejemplo, para recoger la información generada con el acelerador de partículas localizado en Ginebra (Suiza), o con los potentes telescopios que se instalaron en Chile y que producen tantos datos que no se pueden analizar con una sola instalación. También se está empleando para hacer análisis sismológicos, que consumen muchísimos recursos por su alta complejidad para que sean exactos, o para analizar fenómenos climatológicos como el del Niño. Otro campo de aplicación muy promisorio es el de la genómica y Los Andes le ha apostado con fuerza: no solo tiene un proyecto entre Sistemas, Biología y el Centro Nacional de Investigaciones de Café (Cenicafé) para estudiar el genoma de la broca, sino que participa en el proyecto mundial Genoma 10K, cuya finalidad es hacer el levantamiento del genoma de 10.000 especies, en lo que Colombia tiene mucho que decir por su biodiversidad.

Ingenieros de sistemas y científicos, una alianza clave

Los proyectos de grid computing tienen dos participantes: los científicos que emplean los recursos y los ingenieros de sistemas que desarrollan el software que permite ese uso colaborativo y lo ponen al servicio de la ciencia. El reto es idear programas de computación que faciliten el trabajo de los investigadores y coordinarlos para que puedan aprovechar
los saberes particulares y los recursos ubicados en distintos lugares en torno a un problema común. Esto, dice Castro, supone que los ingenieros de sistemas entiendan bien cuáles son los problemas de los científicos, cómo hacen sus análisis y, además, cómo explotar eficientemente una infraestructura distribuida.

También significa que los centros de cómputo de Los Andes tienen que estar conectados con los del mundo, tarea en la que ha sido clave el papel de la Dirección de Tecnologías de la Información (DTI) de Los Andes, que maneja la infraestructura tecnológica. Sin su concurso, no habría sido posible la comunicación para hacer parte de la comunidad grid internacional y nacional e incluso para desarrollar un grid interno. La tarea comenzó en 2007 e incluyó la compra de un cluster para que la DTI tuviera una infraestructura central que le diera soporte a todo el proyecto.

Muchos grids con un solo propósito

En el campo internacional, Los Andes hace parte de dos proyectos que podrían integrarse, pero que funcionan independientemente. Uno es usado para física de altas energías en América Latina. El otro es EELA, una red latinoamericana de científicos de 16 países, hija del proyecto europeo que conecta centros de cómputo muy potentes y ha venido fortaleciendo los grupos de otros lugares como China, India y Latinoamérica para que la capacidad investigativa se extienda por todo el planeta. Este grid a su vez, se conecta con los de Estados Unidos. EELA se estructura por país y cuenta con algo más de 50 instituciones trabajando en distintos ámbitos: infraestructura, aplicaciones y diseminación y formación en las 16 naciones integrantes. Con la coordinación de Harold Castro, por Colombia participan, además de Los Andes, la Universidad Industrial de Santander (fueron las pioneras), la Javeriana (Bogotá) la Católica de Colombia (Bogotá), la Pontificia Bolivariana (UPB, Medellín) y la Autónoma de Bucaramanga (Unab). Sus esfuerzos se concentran en ampliar la infraestructura para ponerla al servicio de los investigadores nacionales y, a su vez, fortalecer la participación colombiana en el proyecto.

En el ámbito nacional, Los Andes hace parte del grid Colombia, integrado por 12 universidades agrupadas desde marzo de 2010 a través de Renata (Red Nacional Académica de Tecnología Avanzada) con apoyo de Colciencias. El proyecto piloto estará listo a finales de este año. Las cinco regiones y los participantes son: por Bogotá, Los Andes, Javeriana (es la coordinadora), Nacional y Católica; por Cali, Javeriana y del Valle; por Medellín, UPB y de Antioquia; por Bucaramanga, Industrial de Santander (UIS) y Unab, y por Barranquilla, Uninorte y del Atlántico. Cada región debe identificar una aplicación que sea usuaria de la infraestructura y que tenga gran potencial, con el fin de garantizar su utilidad. Dentro de ellas están bioinformática (análisis de genoma) y un modelo para la contaminación ambiental, que son las que está trabajando Bogotá, y petróleos, que propusieron los santandereanos.

La misma idea se replicó en la Universidad donde se está ejecutando el proyecto Campus Grid Uniandes. “El propósito es tomar los recursos de las distintas unidades académicas y armonizarlas para que sumen y cada grupo de investigación no se limite a lo suyo, sino que pueda utilizar los recursos de toda la universidad. Así podemos conectarnos con Colombia
y con el ámbito internacional a través de EELA y participar en los grandes proyectos mundiales de investigación”, dice Castro. Para lograr que la red opere, es necesario tener las máquinas funcionando y grupos de investigación que las utilicen, de tal suerte que, por un lado, hicieron un inventario de los recursos y, por el otro, están trabajando con estudiantes de pregrado y maestría que desarrollan su tesis buscando la manera de sacarles mayor provecho y que hacen parte del proyecto Unagrid.

“En Colombia no tenemos grandes centros de cómputo, pero las universidades tienen un amplio número de procesadores de escritorio, muchos de ellos disponibles en salas de cómputo. En Los Andes contamos con más de 4.000, con los que podríamos procesar enormes cantidades de datos, pero la mayor parte del tiempo están desocupados, pese a que el hardware es cada vez más potente. Nuestra tarea es determinar cómo usar esos recursos dormidos y ponerlos al servicio de proyectos sin que los estudiantes y otros usuarios se den cuenta. Por lo pronto, usamos los de la sala de cómputo de Sistemas”, señala el ingeniero.

Para él es claro que si como centro de investigación Los Andes puede aportar, por ejemplo, mil computadores, la comunidad científica la verá como un nodo importante dentro de la Red y podrá desarrollar mejores investigaciones. Pero hay un reto adicional: mostrarles a las distintas dependencias de la Universidad que tienen a su disposición una nueva herramienta para usar en proyectos más grandes o para obtener datos más exactos o de manera más rápida. “En el grupo de investigación COMIT trabajamos con otros grupos de investigación para poder portar sus aplicaciones o desarrollar nuevas para que funcionen sobre este tipo de infraestructura porque no es lo mismo que los programas funcionen sobre una máquina que sobre mil”.

De los buenos resultados dan fe los científicos del Departamento de Biología porque, dice Castro, era muy fácil identificar cuáles cosas se pueden portar fácilmente hacia este tipo de infraestructura y eso despertó su entusiasmo para emplearla. “Ellos llevaban tres meses en un proyecto de genómica que estaba previsto para desarrollarse en un año; usando las herramientas del grid en menos de dos semanas logramos la alineación de unas secuencias”, explica el ingeniero. Y ya están trabajando en una investigación que adelantan con científicos de EELA y han desarrollado algunos proyectos de aplicaciones con el Departamento de Física, también de la Facultad de Ciencias.

Además, han colaborado con Ingeniería Industrial en resolver problemas de optimización, que se caracterizan porque es necesario probar muchas soluciones para determinar cuál es
la mejor y eso puede hacerse muy rápido cuando hay muchos computadores. En este caso, tuvieron la ventaja de que Industrial ya le ofrecía al investigador un programa para que pudiera adaptar fácilmente su estudio a unos requerimientos computacionales. El aporte de Sistemas fue trabajar con ellos para extender ese producto de manera que la infraestructura computacional fueran las salas de cómputo internas o un grid internacional. Esto permitió producir un framework o especie de librería para que puedan desarrollar fácilmente nuevos programas de optimización y probar nuevas estrategias aprovechando esta mayor capacidad de procesamiento.

Con Ingeniería Química desarrollaron un programa que les permite conocer cómo funciona una bacteria que genera una toxina útil en la fabricación de pesticidas, pues la producción de esa toxina depende de cómo evoluciona la bacteria para, eventualmente, afectar su funcionamiento. Con los ingenieros mecánicos este semestre empezó una investigación compleja sobre elementos finitos. Al mismo tiempo, planean involucrarse con otras facultades, como Economía y con otros grupos en Ingeniería, pero, a juicio de Castro, esto demanda que las dos partes se involucren mucho, requiere tiempo y no siempre al investigador le queda claro cuál será la ganancia porque no se pueden mostrar resultados rápido o la herramienta no ofrece las soluciones ya listas.

Castro y su equipo piensan que “la administración de la gente es la parte más compleja, pero si tengo las herramientas para soportar la investigación de manera colaborativa, lo que se espera es que se facilite esa cooperación entre los científicos”.

La dificultad radica en que las aplicaciones y la cabeza de la gente están hechas para tener una sola unidad de procesamiento: “Uno se imagina, primero hago esto, después esto, después lo otro. Pero cuando tiene mil cabezas que procesan al mismo tiempo, uno se enreda para coordinarlas y que funcionen. Hacer la coordinación depende del problema particular que se esté abordando, pues si por ejemplo quiero analizar una parte del universo, aunque lo obvio sería analizar por pedazos, es probable que un objeto de un pedazo se mueva hacia el otro espacio geográfico y esto requiere comunicación entre los computadores para tratar ese tipo de eventualidades. Ahí se complica mucho la programación y es más difícil hacer las aplicaciones”.

Castro está convencido de que en este momento hay una apertura muy grande a decir “unámonos”, pero muy pronto empezarán a ser mucho más exigentes en analizar qué trae cada uno para entrar al grupo y se formarán grandes grupos internacionales que van a dominar la ciencia. Por eso, el científico que no se conecte a un grid se quedará por fuera. Lo que marcará la diferencia es el cerebro del investigador y su capacidad de propuesta para convocar a otros alrededor de un proyecto porque se eliminan las barreras geográficas y las diferencias en la cantidad de datos que pueden procesarse, almacenarse y analizarse.

THE GRUPO: Comunicaciones y Tecnología de la Información COMIT. http://sistemas.uniandes.edu.co/~comit/dokuwiki/doku.php

CONTACTO: Harold Castro, ingeniero de sistemas y computación, profesor asociado del Departamento de Sistemas y Computación. Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla

Última actualización el Miércoles, 31 Julio 2013 14:43