SEIS

INFORSALUD 2004
Madrid, 24-26 de marzo de 2004

La Cooperación entre Redes Sanitarias

[Entrada] [Actividades] [Revista I+S] [Solicitud de Inscripción SEIS] [Búsquedas]


Inicio
Objetivo
Comités
Fechas
Áreas
Cronograma
Programa
HTML PDF

Pósters
Inscripción

¿Cómo llegar a la sede del Congreso?

Secretaría Técnica:

CEFIC
C/ Olimpo, 33, 1º C
28043 - Madrid
Telfs: (91) 388 94 78 / 79
Fax: (91) 388 94 79

Enviar correo a la Secretaría
cefic@cefic.com
 

 

 


VII CONGRESO NACIONAL DE INFORMÁTICA DE LA SALUD

 

 

USO DE TECNOLOGÍAS DE AGENTES PARA LA INTEGRACIÓN DE BASES DE DATOS CLÍNICAS Y GENÉTICAS

BAHILLO, R., GARCÍA-REMESAL, M., PÉREZ, D., ALONSO-CALVO, R., ROMERO, B., LLORENTE, JC., MARTINEZ, G., BARBADO, V., MORAL, C., MARTINEZ-AGRA, A., MARTIN-SÁNCHEZ, F. 2, SOUSA, A. 3, OLIVEIRA, I.C. 3, MAOJO, V.

Laboratorio de Inteligencia Artificial, Universidad Politécnica de Madrid
2Grupo de Bioinformática Médica, Instituto de Salud Carlos III
3IEETA. University of Aveiro, Portugal

 

Resumen. El objetivo del sistema INFOGENMED es facilitar la recuperación homogénea de información, a través de Internet, proporcionando un acceso unificado a múltiples y diversas bases de datos relacionales remotas ya existentes. La investigación desarrollada parte de la idea de que un conjunto de bases de datos heterogéneas forma un espacio de información único. La arquitectura del sistema trata de facilitar al usuario el acceso a toda la información disponible, a la que se tiene acceso a través de las bases de datos registradas en el sistema, de forma intuitiva y directa. El sistema pretende, por un lado, permitir la integración de diferentes esquemas lógicos de bases de datos relacionales, y por otro, establecer una arquitectura distribuida estándar, no condicionada a productos propietarios, que facilite la conexión de cualquier base de datos. Como infraestructura tecnológica se propone el uso de agentes inteligentes, que dan al sistema mayor flexibilidad y eficiencia, facilitando las tareas de integración y búsquedas, aspectos desarrollados en el artículo.

 

1. Introducción

La información clínica y genómica ha estado, hasta ahora, almacenada en sistemas completamente heterogéneos [1]. Al integrar bases de datos heterogéneas, se consideran dos niveles de heterogeneidad: (1) plataformas tecnológicas diferentes (máquinas, sistemas operativos, y sistemas gestores de bases de datos), y (2) esquemas de base de datos diferentes. El punto (1) se refiere al aspecto de búsqueda de soluciones técnicas, mientras que el (2) se refiere a aspectos teóricos o conceptuales. Esto quiere decir que aunque bases de datos diferentes pueden contener información relativa al mismo dominio, usualmente tendrán diferentes esquemas. Por ello, es necesario crear un "mapping" o correspondencia entre el esquema físico de una base de datos y un esquema conceptual (en este artículo, basado en ontologías), creado mediante la utilización de terminología estándar asociada a un dominio (el dominio biomédico).

La idea principal es que unidades de información similares almacenadas en diferentes bases de datos pueden ser nombradas de la misma manera en sus respectivos esquemas conceptuales de mapping. Este hecho permitiría la unificación automática de dos o más esquemas conceptuales que contengan entidades, creando un nuevo repositorio virtual de unificación que engloba la información de sus repositorios hijo. Los procesos de mapping y unificación permiten crear una organización taxonómica — es decir, una relación de contención o subsunción — del espacio de información disponible mediante la creación de una jerarquía de repositorios virtuales. Estos repositorios virtuales — ya sean de mapping o de unificación — facilitarían el acceso unificado a diferentes bases de datos remotas.

2. Métodos

La solución propuesta para gestionar la heterogeneidad de los esquemas de las bases de datos se afronta mediante una teoría de unificación basada en la creación de un esquema virtual unificado que integre los diferentes esquemas locales de las bases de datos. El esquema unificado proporciona una visión homogénea del espacio de información, que está compuesto por los datos existentes en las diversas bases de datos remotas [2]. El proceso de generación del esquema global conlleva la realización de dos procesos: un proceso denominado de "mapping" cuyo objetivo es traducir los esquema internos de las bases de datos a esquemas conceptuales auto descriptivos, y un segundo proceso, denominado de unificación, que permite la integración de distintos esquemas conceptuales obtenidos previamente [3][4]. El primero, debido a su carácter semántico deberá llevarse a cabo con ayuda humana, mientras que el segundo se llevará a cabo de forma automática.

Al realizar la unificación e integración de bases de datos deben ser considerados tres niveles de heterogeneidad: (1) Heterogeneidad de la plataforma tecnológica: diferentes sistemas hardware y sistemas operativos, (2) Heterogeneidad del Sistema Gestor de Base de Datos (en adelante, SGBD), (3) Heterogeneidad del esquema de la base de datos y del modelo de datos conceptual asociado. INFOGENMED introduce una solución a los dos primeros puntos mediante una arquitectura basada en agentes inteligentes, que facilita la comunicación entre módulos. Asimismo, establece un sistema altamente flexible con respecto a la integración de nuevos servicios y bases de datos en el futuro. Cada una de las bases de datos va a estar gestionada por un agente, por lo que si queremos añadir alguna nueva, basta con añadir un agente más al sistema.

Existen diferentes clasificaciones dependiendo de varios rasgos de los agentes. La que interesa a este proyecto es la clasificación entre agentes estáticos y agentes móviles. Los agentes estáticos (usados en este proyecto) son entidades con ejecución limitada al sistema donde se inicia. Interactúa con entidades locales, ya sean otros agentes, programa o usuarios. Pero también puede interactuar con recursos remotos vía CORBA, RMI, RPC. Los agentes móviles son agentes con capacidad de movimiento que interactúan directamente con entidades locales o remotas, y si son remotas el agente migrará hacía la máquina contenedora. Un agente es una entidad software que se comunica con otros agentes mediante una plataforma común. Esta plataforma puede estar distribuida en varias máquinas. Solamente una aplicación Java y, por tanto, una única Máquina Virtual Java, es ejecutada en cada máquina. Los agentes están implementados como threads Java y residen en Contenedores de Agentes los cuales proporcionan soporte para la ejecución de los agentes. Las principales funciones que realizan son proporcionar al administrador del sistema un método fácil para unir una nueva base de datos al sistema y desarrollar APIs para que el usuario pueda realizar preguntas al sistema y para que pueda recuperar los datos resultantes de las mismas.

3. Resultados

A continuación se muestra una pantalla con los comportamientos activos de un agente recién creado, uno de ejecución y otro de configuración.

Figura 1. Ejemplo de pantalla mostrando los comportamientos de un agente

Los agentes facilitan la infraestructura necesaria para conectar los diversos subsistemas de INFOGENMED. Para realizar una búsqueda de prueba se han tomado dos bases de datos médicas con contenidos relacionados con tumores. Para la representación de ontologías, que son usados en INFOGENMED para varias tareas, se ha usado el lenguaje DAML+OIL, tanto para representar los esquemas virtuales (obtenidos gracias al mapping, que se muestra en la figura 2, y a la unificación) como para representar los resultados de una consulta, es decir, instancias de clases DAML+OIL. Una parte importante aportada por este proyecto ha sido el hecho de que se acepte cualquier tipo de sintaxis SQL. El sistema cogerá un fichero de configuración XML para conseguir la sintaxis adecuada.

Figura 2. Ejemplo de mapping entre dos bases de datos en el caso de prueba

La posibilidad de acceso a múltiples bases de datos simultáneamente con diseños conceptuales distintos ha sido resuelta mediante una teoría o modelo de unificación compuesta de cuatro elementos: un modelo común de representación de los esquemas de bases de datos relacionales (DAML+OIL), dos algoritmos que constituyen la teoría de unificación (Mapping y Unificación) y un lenguaje para la realización de consultas sobre el modelo definido (RDQL).

4. Conclusiones

La estandarización de métodos y su sencillez de uso hacen de la World Wide Web (WWW o Web) el medio idóneo para el acceso e intercambio de información [5]. Sin embargo, la información ya existente en la bases de datos relacionales tradicionales no está, a priori, accesible desde la Web. Para su recuperación se emplean programas PHP, ASP, JSP, que resuelven los accesos y convierten el resultado de una petición en documentos HTML. El problema asociado a este método es la imposibilidad de realizar búsquedas de información no sólo en una base de datos de la red, sino en varias. Para realizar esta tarea hoy en día, el usuario debe acceder manualmente a todas y cada una de las bases de datos en las que está interesado, de manera que pueda buscar toda la información existente. Con el sistema INFOGENMED y las tecnologías de agentes y ontologías se pretende crear un nuevo método de integración de bases de datos clínicas y genéticas.

 

Agradecimientos

Esta investigación ha sido apoyada por el proyecto INFOGENMED y la Network of Excellence INFOBIOMED de la Comisión Europea, por el Ministerio de Sanidad y Consumo (red INBIOMED) y el Ministerio de Ciencia y Tecnología, (TIC 2002-04444-C02-02.

 

Referencias

[1] Martin, F. (project coordinator). 2002. BIOINFOMED. Prospective Analysis on the Relationships and Synergy between Medical Informatics and Bioinformatics. European Commission.

[2] Billhardt, H., J. Crespo, V. Maojo, F. Martín, and J.L. Maté. 2001.Unifying Heterogeneous Medical Databases. In Medical Data Analysis. Lecture Notes in Computer Science 2199: 54-61, edited by J. Crespo, J., V. Maojo and F. Martín. Springer Verlag: Heidelberg.

[3] M. Garcia-Remesal, J. Crespo, A. Silva, H. Billhardt, F. Martin, J. Rodriguez-Pedrosa, V. Martin, A. Sousa, A. Babic & V. Maojo. "INFOGENMED: Integrating heterogeneous medical and genetic databases and terminologies". In: Proceedings KES 2002, Crema (Italy). September, 2002.

[4] Maojo, V, Martin, Ibarrola, N, et al.: INFOGENMED: Functional Design of a Workstation for a Virtual Laboratory. Proceedings of the AMIA Annual Fall Simposium. Washington, USA. Nov. 1999

[5] Martín, F., Maojo, V. and G. López-Campos. 2002. Challenges in integrating genomic data into the different health information levels. Methods Inf Med. 2002;41(1):pp. 25-30.

 

Búsquedas en la SEIS
Búsquedas en la SEIS

 

[Qué es la SEIS]

Revista I + S

[Entrada] [Actividades] [Revista I+S] [Solicitud de Inscripción SEIS] [Búsquedas]

Copyright SEIS© 1997-2004.
Última actualización: 04 abril 2004 10:31