Informática y Salud Nº 22 - BIOCHIPS Y BIOINFORMÁTICA -

[Entrada] [Actividades] [Revista I + S] [Solicitud de Inscripción]

Informática y Salud

Nº 25. Marzo/ Abril 2000

Guillermo H. López-Campos, Nieves Ibarrola, Fernando Martín-Sánchez

Unidad de Bioinformática – BIOTIC – SGLSSP

Instituto de Salud Carlos III

BIOCHIPS Y BIOINFORMÁTICA

En los últimos años la genética ha sido una de las ramas más activas de la biología molecular y está produciendo avances espectaculares como la resolución de diversos proyectos genoma, de entre ellos el más ambicioso es el Proyecto Genoma Humano. Estos grandes avances se han visto posibilitados gracias al desarrollo de nuevas y más potentes herramientas de extracción y análisis de la información genética.

La segunda mitad de este siglo ha estado marcada en biología por el desarrollo de la genética molecular y por el descubrimiento de las secuencias que componen los genes, los genomas de los seres vivos. Los avances en genética han estado a veces precedidos por avances tecnológicos que han permitido la puesta a punto de nuevas técnicas para la extracción de información biológica, como por ejemplo las técnicas espectroscópicas. En otras ocasiones son los avances biológicos los que permiten el desarrollo de estas nuevas técnicas, como el desarrollo de la PCR (reacción en cadena de la polimerasa). Las nuevas herramientas han permitido que los investigadores desarrollen nuevos enfoques experimentales en los que prima el estudio en conjunto de los componentes que constituyen los seres vivos. Ha sido esta nueva corriente "globalizadora" la que ha permitido acuñar y desarrollar la era de los estudios "-ómicos", en referencia a los estudios en genómica, (estudio en conjunto de los genes), proteómica (estudio en conjunto de las proteínas), etc.… (Weinstein 99). Para el desarrollo de estos nuevos estudios se requieren herramientas capaces de realizar estudios masivos en paralelo que puedan analizar en un único ensayo multitud de genes o proteínas.

Las nuevas aproximaciones experimentales que se están empleando en la actualidad en biología molecular generan cada día una mayor cantidad de información que debe ser almacenada y gestionada antes de ser procesada para la obtención del conocimiento biológico. Es en este campo en el que las herramientas de las tecnologías de la información y las comunicaciones están adquiriendo un papel más importante.

Biochips

En la actualidad el término biochip está tratando de encontrar su correcta significación en el ámbito científico tecnológico ya que, en ocasiones, con él se designan instrumentos con muy diferentes aplicaciones en campos biológicos o informáticos, como la biocomputación, los biodispositivos y la biología molecular. Como biodispositivo encontraríamos aquellas aplicaciones de dispositivos electrónicos en los seres vivos como los implantes de chips para controlar los temblores en la enfermedad de Parkinson o los implantes cocleares. En la biocomputación por el contrario se emplean sustancias biológicas con la finalidad de desarrollar nuevo hardware para procesos computacionales, como ejemplo encontraríamos las memorias basadas en conformaciones proteicas y la computación con ADN. (Fernando Martín-Sánchez y Guillermo López-Campos, 1998).

En biología molecular el término biochip se asigna a aquellos dispositivos de pequeño tamaño (chip) que contienen material biológico (bio) y que son empleados para la obtención de información biológica. Estos dispositivos son también conocidos como Microarrays o por nombres comerciales de las empresas que los suministran. En general el término biochip se emplea dentro del campo de la biología molecular para referirse a los dispositivos en los que se alcanza una elevada densidad de integración de un material biológico inmovilizado sobre una superficie sólida, por analogía con la elevada densidad de circuitos electrónicos presente en un chip microelectrónico.

Los biochips son una de las más recientes herramientas con las que cuenta la biología molecular. Desarrollados a finales de los 80´s, tienen su origen en los ensayos realizados con anterioridad para la inmovilización de material biológico sobre superficies sólidas. La inmovilización puede ser realizada de muy diversas formas y sobre diferentes substratos como plástico, cristal o silicio. También se pueden realizar biochips empleando para ello la inmovilización sobre membranas u otros materiales porosos. Se pueden considerar como los herederos más o menos sofisticados de los diferentes Blots (Southern, Western…).

En la actualidad se ha producido una explosión de estas técnicas que ha conducido a una gran diversificación en las soluciones tecnológicas y en la aparición de numerosas compañías en el sector. Esta diversidad ha permitido que se hayan desarrollado chips que inmovilizan desde ácidos nucleicos, que es lo más común, hasta tejidos (tissue chip), pasando por proteínas.

El fundamento de estos dispositivos radica en la inmovilización del material biológico sobre una superficie sólida, para la realización de un ensayo de afinidad entre el material inmovilizado (sonda) y el material de muestra (blanco) que se desea analizar en paralelo, para lo cual se inmovilizan diferentes sondas.

En estos dispositivos se dispone el material biológico de una forma regular, ordenada y conocida sobre la superficie. Esta disposición permite el establecimiento de una retícula formada por un conjunto de filas y de columnas en el que cada posición es inequívoca y está identificada como en una matriz matemática. Este tipo de disposición permite el conocimiento del material depositado en cada posición.

La diversificación de soluciones tecnológicas dentro del campo de los biochips ha permitido la diferenciación de estos en dos grandes grupos:

Biochips "comerciales": que son aquellos diseñados por empresas que inmovilizan el material genético en la superficie del chip y lo fabrican en grandes cantidades y que llegan a los investigadores listos para su empleo.

Biochips "personalizados" o "home-made-chips": Este término agrupa a aquellos biochips que son fabricados por los propios investigadores en sus laboratorios. En este caso los biochips deben ser diseñados y fabricados por los propios investigadores. Con esta finalidad se han desarrollado y comercializa unos robots (arrayers) capaces de recoger y depositar sobre la superficie del chip el material biológico a inmovilizar.

La metodología fundamental de trabajo en un ensayo con biochips es la misma independientemente del tipo de biochip que se emplee; las diferencias se pueden encontrar únicamente en los dos primeros pasos, en el diseño y en la fabricación ya que en un caso es el investigador el encargado de llevarlos a cabo, mientras que si se usan los biochips "comerciales" estos pasos son realizados por la empresa fabricante. Los pasos a seguir son los siguientes:

Diseño del biochip: durante este proceso se produce la selección del tipo y cantidad de material biológico que se va a inmovilizar sobre la superficie, que variará en función del tipo de experimento que se desee llevar a cabo. Se determina también la densidad de integración, es decir el número de sondas que se desean inmovilizar sobre la superficie del chip, que se verá limitada por el método de fabricación que se desee emplear. Se seleccionan los estándares internos para el tipo de ensayo.

Todas estas selecciones deben ser realizadas por el investigador en el caso de que se vaya a emplear un biochip "personalizado".

Fabricación: este paso esté muy diversificado como consecuencia de la gran cantidad de soluciones tecnológicas presentes en el mercado. Este paso determina la densidad de integración que se puede lograr en un chip. En general las grandes empresas que comercializan los chips ya listos, son capaces de ofrecer mayores densidades de integración que las que se pueden alcanzar empleando los arrayers para la fabricación en el laboratorio de un biochip personalizado.

Hibridación y lavado: a partir de este paso el procedimiento de trabajo es exactamente igual para los chips comerciales y para los personalizados, con algunas diferencias debidas a las diferentes soluciones tecnológicas empleadas. Resulta un paso clave ya que en el se produce la reacción de afinidad en la que se hibridan las hebras de ADN de la muestra marcadas para permitir su posterior identificación, con sus complementarias inmovilizadas en la superficie del chip. Según las condiciones en las que se produzca esta reacción de afinidad se obtendrán mejores o peores resultados posteriormente en el proceso de revelado. El lavado se realiza para eliminar las interacciones inespecíficas que se dan entre la muestra y el material inmovilizado o la superficie del biochip.

Revelado: es un proceso que viene condicionado por la gran variedad de alternativas tecnológicas diseñadas para esta función. Entre estas soluciones las más comunes son la utilización de escáneres láser y cámaras CCD para la detección de marcadores fluorescentes con los que se ha marcado la muestra. Otra solución algo más económica es la utilización de isótopos radiactivos para el marcaje de los blancos y su posterior detección.

Almacenamiento de resultados: tras el revelado al que se someten los biochips se debe proceder al almacenamiento de los datos obtenidos.

Análisis de resultados: etapa final de todo experimento con la tecnología basada en biochips. A este paso llegan los datos procedentes del revelado y se presentan en forma numérica o en forma de una imagen de 16 bits en la cual se pueden apreciar los puntos en los que la reacción de hibridación ha sido positiva y los puntos en los que no ha habido tal hibridación. Es en este punto en el que se aplican una mayor cantidad de elementos de software bioinformático destinados a la extracción de conocimiento del experimento realizado.

La bioinformática asociada al uso de los biochips

La aportación de soluciones de las tecnologías de la información y las comunicaciones en la biología molecular es un área que está en una continua expansión. Además de dar un soporte de almacenamiento para las enormes cantidades de información y la posibilidad de gestionar esta gran cantidad de datos y conocimientos, se han desarrollado nuevos sistemas de comunicación que permiten el acceso a diversas fuentes de información remotas a través de Internet. Estas aplicaciones de las tecnologías de la información y las comunicaciones en biología reciben el nombre de bioinformática.

La bioinformática ha sufrido una gran transformación desde su nacimiento hasta el presente. Cuando se comenzaron a emplear aproximaciones de las tecnologías de la información en biología, estas aplicaciones tenían únicamente el papel de ofrecer un soporte técnico a la investigación biológica. En la actualidad la Bioinformática ha dejado de ser únicamente una herramienta de soporte y se ha convertido en una auténtica disciplina científica capaz de realizar sus propias investigaciones aplicando la metodología científica.

En la actualidad estamos asistiendo a la aparición de una nueva forma de realizar los experimentos biológicos, a las clásicas aproximaciones "in vivo" e "in vitro" se debe sumar ahora la nueva biología "in silico" que esta fundamentada en la bioinformática y en el desarrollo de experimentos y simulaciones en ordenadores.

En las nuevas aproximaciones experimentales que se están desarrollando en biología molecular la capacidad de generar datos es cada día mayor. Los nuevos enfoques basados en la genómica requieren analizar simultáneamente un gran número de genes, esto implica la generación de una gran cantidad de datos que al finalizar el experimento deben estar informatizados para permitir su almacenamiento, gestión y análisis. (M.S. Boguski, 1998)

Los experimentos basados en la tecnología de los biochips suponen un claro ejemplo de las nuevas aproximaciones experimentales empleadas por la biología molecular. La bioinformática es una herramienta fundamental a la hora de comenzar a plantear un experimento basado en biochips, ya que en este tipo de ensayos su uso se extiende desde el inicio del proceso con el diseño del chip, hasta el paso final de análisis de resultados.

Dado el gran volumen de información que debe ser gestionado durante el proceso de trabajo con los biochips, se hace muy recomendable la utilización de un sistema que permita la gestión del conjunto de procesos realizados. La necesidad de estos sistemas se hace especialmente patente para el seguimiento de los controles de calidad de los procesos experimentales. En la actualidad a estos sistemas se los conoce como sistemas LIMS (sistemas de gestión de la información de laboratorio). Gracias a estos sistemas se puede seguir y gestionar todo el proceso de trabajo de laboratorio con detalle desde el diseño de los biochips hasta el análisis (O.Ermolaeva et al, 1998), la información que se almacena en estos sistemas incluye la descripción del material de las sondas inmovilizadas en la superficie del chip, información del proceso de fabricación del chip proveniente de la gestión del robot, la descripción del material de la muestra, la descripción de los reactivos empleados así como de los investigadores encargados del proceso.

En los dos primeros pasos, el diseño y la fabricación, la participación es menor que en el resto del proceso de trabajo existiendo software especializado para la realización de estas tareas:

Diseño: En el proceso de diseño la bioinformática participa muy activamente a la hora de seleccionar las sondas de análisis que se van a inmovilizar a la superficie del chip. El tipo de sonda que se desee inmovilizar variará según el tipo de experimento que se desee realizar. La bioinformática participa en los estudios previos necesarios para la determinación de las secuencias que proporcionarán una hibridación más específica, que son seleccionadas como sondas para su inmovilización.

Fabricación: Dado que para la fabricación de los biochips "comerciales" se emplean las tecnologías de fotolitografía y otros procesos industriales avanzados, todo el proceso se encuentra informatizado y automatizado para optimizar la gestión. En el caso de los biochips "personalizados", el investigador es el encargado de la utilización del software necesario para la generación del chip. En la mayoría de los robots comercializados se emplean diferentes programas dirigidos a la gestión de las sondas que se van a inmovilizar, el tamaño de los puntos y su disposición sobre la superficie sólida.

Existen ejemplos de programas para la gestión de equipos, la preparación de primers y el seguimiento del proceso.

A partir de la adición de la muestra para la reacción de hibridación, la necesidad de las herramientas bioinformáticas se hace cada vez mayor. Los procesos de hibridación y lavado se pueden llevar a cabo en muchos casos sin necesidad de utilizar soporte bioinformático.

Cuando se comienza con el proceso de revelado, se inicia un proceso que podría considerarse casi exclusivamente bioinformático, ya que a partir de este punto todos los datos, y los análisis se realizan mediante herramientas bioinformáticas.

Durante el proceso de revelado se produce la adquisición de los datos por el sistema. Los datos son adquiridos como una imagen con puntos de diferente intensidad que deben ser interpretados y transformados. A este proceso se le puede denominar como procesamineto de las imágenes y en el se procede a la interpretación de las intensidades detectadas en cada uno de los puntos en los que la reacción de afinidad ha sido positiva por el hardware de detección.

En el proceso de visualización se pueden distinguir diferentes etapas a medida que se va realizando el proceso.

La primera etapa consiste en el establecimiento de la malla conformada por los puntos inmovilizados y el tratamiento de la imagen para constituir la matriz de puntos que se representa posteriormente. Para ello se localizan los puntos en los que la detección de la hibridación ha sido positiva y muy intensa, se buscan sus centros y a partir de estos centros se extraen las coordenadas.

El siguiente paso en el tratamiento de los datos proporcionados por las unidades detectoras consiste en la detección y eliminación del ruido de fondo que acompaña a las señales. Este paso es importante y la cantidad de ruido que acompaña a la señal es muy variable en función del tipo de biochip con el que se esté trabajando y del tipo de marcaje al que se han sometido las muestras. En general se encuentra más ruido de fondo en los biochips que emplean como soporte de inmovilización membranas, viéndose reducido en aquellos desarrollados sobre vidrio. El tratamiento para discernir el ruido de la señal se puede hacer mediante una modelización Gaussiana o bien considerando los pixel más externos de la imagen como ruido de fondo.

El siguiente paso en el tratamiento de la imagen consiste en la limitación del tamaño de los puntos detectados.

La cuarta etapa del proceso de tratamiento de la imagen es la asignación de las intensidades de cada punto. En el caso de la utilización de más de dos fluorocromos para la detección este paso se repite tantas veces como fluorocromos diferentes existen en la muestra, mediante la excitación sucesiva con diferentes longitudes de onda y posterior detección de la excitación. En este punto se establece también la relación (ratio) entre las intensidades de cada uno de los fluorocromos detectados, que va a ser proporcionada finalmente al investigador como resultado del ensayo.

En el caso de los ensayos de comparación de expresión génica se necesita establecer unos marcadores internos que no varíen en las muestras a comparar. En la actualidad existe un interesante debate acerca de cuales son estos patrones internos que no varían, que deben ser empleados en los experimentos. En muchos casos se emplean los denominados "Housekeeping Genes" que son genes que se expresan con igual intensidad y que no varían su expresión, es decir la ratio entre las diferentes muestras es la unidad como controles positivos de igual modo también se suelen emplear controles internos negativos, empleando genes de diferentes organismos que no están presentes en las muestras.

Existen diferentes programas de tratamiento de imágenes, algunos de los cuales permiten analizar las entradas de múltiples biochips simultáneamente. Posteriormente a la detección de la imagen y a esta primera interpretación de los resultados los datos pueden ser almacenados y presentados en diferentes formatos. La posibilidad de utilizar diferentes formatos permite que los datos sean posteriormente importados por el software de análisis. En la mayoría de los casos los datos son presentados al investigador en forma de una imagen en formato TIFF de 16 bits.

En un gran número de casos junto con el software básico para la detección y los cambios de formato de las imágenes, se suministran algunas herramientas que permiten un análisis preliminar de los datos.

Antes de comenzar el proceso de análisis, los datos deben ser almacenados en una base de datos para permitir su posterior utilización.

Una vez se ha completado el proceso de detección de las posiciones en las que la reacción ha sido positiva, se podría dar por finalizada la fase empírica del experimento, comenzando la fase de interpretación de los resultados obtenidos. En esta nueva etapa la bioinformática es la herramienta fundamental ya que debido a la gran cantidad de datos y a su complejidad, no se pueden emplear otras aproximaciones y abordajes.(Zweiger, 1999)

Para la realización del análisis de los datos provenientes de los experimentos de biochips se han desarrollado un gran número de herramientas software, que aportan diferentes aproximaciones y metodologías para la realización de los análisis. En la actualidad es aquí donde se presenta el cuello de botella en la utilización de los biochips. Como consecuencia de la gran cantidad de información que estos sistemas son capaces de generar, la realización de los análisis es compleja y requiere la utilización de nuevos programas que son cada vez más potentes y que están en una permanente evolución y mejora.

Los programas que se ofrecen en la actualidad, además de permitir como se ha dicho anteriormente el análisis de los datos, ofrecen herramientas que les proporcionan un importante valor añadido.

La gran mayoría de los programas diseñados para el análisis de los resultados contienen herramientas que emplean técnicas de Data Mining o Minería de Datos. Se puede hacer una diferencia entre los programas de análisis y los entornos completos de Data Mining y visualización, que además contienen herramientas para la representación gráfica compleja de los resultados y modelos de los análisis. La minería de datos puede ser definida como el proceso de extracción de información y patrones de comportamiento que permanecen ocultos entre grandes cantidades de información como las procedentes de un ensayo de biochips. Es un proceso iterativo, que surgió como una integración de múltiples tecnologías tales como la estadística, el soporte a la toma de decisiones, el aprendizaje automático, la gestión y almacenamiento de bases de datos y el procesamiento en paralelo. Para la realización de este proceso se aplican técnicas procedentes de muy diversas áreas, como pueden ser los algoritmos genéticos, las redes de neuronas, los árboles de decisión, etc.

Una de las herramientas de minería de datos más frecuentemente empleadas en el análisis de la información procedente de los biochips es el análisis por "clustering". En este tipo de análisis se agrupan los genes o experimentos en función de los patrones que presentan las diferentes muestras. Los métodos de "clustering" pueden ser:

Jerárquicos

Basados en la K-Media

Mapas Auto organizados

Clustering de los Vecinos Próximos

Los análisis por clustering presentan limitaciones por la necesidad de emplear datos bien separados y una segunda limitación como consecuencia de su capacidad para extraer únicamente relaciones uno-a-uno.(Michael Bittner et al., 1999). Para la realización de estas técnicas de análisis de resultados se requiere la utilización de filtros que eliminen el ruido de fondo del experimento, así mismo se requiere normalizar los datos procedentes de los experimentos. Estos dos pasos resultan muy importantes en la metodología de análisis por "clustering" y por lo tanto para cada experimento que se realice, el proceso de filtrado y normalización de los datos deberá ser revisado y analizado buscando y seleccionando aquel que mejor se adecue al caso.

Una vez se ha terminado el proceso de análisis de los datos se procedería a la utilización de herramientas de visualización de la información generada tras el análisis y a la generación de conocimiento.

Compañía	Producto	Descripción	Precio
Affymetrix Http://affymetrix.com	GeneChip Suite 3.1	Este software permite la gestión automatizada de los equipos (escáner y estación fluídica) minimizando los errores de usuario. Posee elementos para la adquisición y procesado automático de las intensidades de hibridación	E.E.U.U. $5.000
	GeneChip LIMS	Gestiona y controla los datos y las sondas	E.E.U.U. $90.000
	GeneChip Data Mining Tool (DMT)	Herramienta para minería de datos que permite trabajar con grandes cantidades de datos, Se presenta con un interfaz flexible e intuitivo que permite contactar con bases de datos de resultados de expresión génica. Los resultados son presentados en una amplia variedad de formatos de visualización. Posee una arquitectura abierta que le permite integrar y contactar con bases de datos públicas de información genética.	E.E.U.U. $2.500
BioDiscovery www.biodiscovry.com	ImaGene	Herramienta para la visualización de los experimentos. Desarrollado solo para la captura y procesado de la imagen de biochips y membranas de alta densidad. Automatiza la medición y visualización de los datos de expresión.	E.E.U.U. $7.995
	GeneVision Microarray Data Miner	Herramienta de Data Mining para datos de biochips, permitiendo seleccionar diferentes experimentos, comparándolos y explorándolos. Parar ello emplea herramientas avanzadas de análisis y visualización como GenePie visualization, clustering por redes de neuronas..	E.E.U.U. $7.995
Incyte Pharmaceuticals www.incyte.com	GEM Tools	Software diseñado para la gestión y el análisis de los experimentos de biochips GEM^tm. Utiliza un algoritmo de reconocimiento de la imagen propietario para la interpretación de las imágenes. Compara los datos con una librería de expresión para determinar los genes diferencialmente expresados y su intensidad	Contactar con la compañía
	LifeArray	Gestiona y analiza los datos resultantes de la hibridación	Contactar con la compañía
Lion Bioscience www.lionbioscience.com	Array SCOUT	Software de análisis de biochips de expresión. Permite unir los puntos de datos de expresión con el programa BioSCOUT y otras bases de datos.	Contactar con la compañía
Molecular Applications Group www.mag.com	GeneMine	Herramienta de Minería de datos y visualización para grandes volúmenes de información.	Contactar con la compañía
	Stingray	Desarrollado con Affymetrix como un sistema completo para el análisis de expresión génica, función y secuencia	Contactar con la compañía
NetGenics www.netgenics.com	SYNERGY	Permite la gestión análisis y visualización de los datos de expresión génica empleando un único software. Permite la realización de búsquedas en otras bases de datos públicas	Contactar con la compañía
Phase 1 Molecular Toxicology Inc. www.phase1tox.com	Data Console	Paquete de programas y bases de datos que permite analizar, compara y clasificar compuestos respecto a su toxicidad. Posee un programa que recoge los datos y realiza un primer análisis de los datos, exportando los datos para su almacenamiento.	Contactar con la compañía
Silicon Genetics www.sigentics.com	GeneSpring 2.3	Software diseñado exclusivamente para el análisis de expresión génica. Es capaz de importar datos desde muy diversas fuentes. Posee herramientas de Minería de datos.	Contactar con la compañía

Estandarización

Una de las principales consecuencias que ha tenido la impactante irrupción de las tecnologías basadas en biochips dentro del mundo de la investigación, ha sido que en un breve periodo de tiempo, la última década, se ha producido una gran diversificación de los recursos y las tecnologías disponibles. Esta diversificación ha traído como consecuencia la aparición de diferentes formatos tanto en los mismos biochips, técnicas de fabricación, dimensiones, soportes, formas de revelado, etc. como en los soportes informáticos con los que trabajan.

La diferencia de formatos existente ha provocado que al intentar realizar el mismo experimento en una plataforma tecnológica diferente en ocasiones los datos que se obtengan no sean iguales, además se producen incompatibilidades entre los componentes de las diferentes plataformas. Por todos estos motivos se genera una perdida en la reproducibilidad de los experimentos.

La solución a estos problemas de compatibilidades entre las diferentes plataformas surge como consecuencia de las diferentes iniciativas de estandarización de los biochips que han surgido en los últimos años. Estas propuestas de estandarización tratan de promover la creación de unos "mínimos comunes", compartidos entre los diferentes biochips de forma que se garantice su compatibilidad tanto a nivel de los componentes de hardware como de la interoperbilidad del software diseñado.

En la actualidad están en marcha tres grandes propuestas de estandarización para los biochips:

La primera propuesta de estandarización surgió en el año 1998 con la creación por parte de Affymetrix, (una de las empresas líderes y pioneras en el sector de los biochips), y Molecular Dynamics (hoy en día unida a Amersham-Pharmacia en la fabricación y desarrollo de biochips) del Genetic Analisys Technology Consortium (GATC). El objetivo de este consorcio es el establecimiento de ofrecer una plataforma tecnológica unificada para el diseño, procesado, revelado y análisis de los biochips. De forma que todos los productos conformes con el GATC resultan totalmente compatibles entre si. Con posterioridad a la formación de este consorcio se adhirió a él la empresa de software Pangea que ha diseñado bases de datos que cumplen los requisitos. Hasta el momento el trabajo de este consorcio se ha centrado en el establecimiento de la normativa referente a las especificaciones del software, y están en proceso las especificaciones para los escáneres, reactivos y diseño de las sondas inmovilizadas en los chips. En la normativa que deben cumplir los elementos de software para cumplir con el GATC se incluyen la estructura de los archivos, el formato TIFF para las imágenes que se extraen de los escáneres, se proporciona un algoritmo de transformación para linearizar los datos antes de su utilización y por último se propone y describe una arquitectura y diseño de base de datos para estudios de expresión génica.

Otra de las propuestas de estandarización existentes en la actualidad surge a finales de 1998 desde el Life Sciences Research Domain Task Force del Object Management Group (OMG).(Object Management Group, 1998). Desde este grupo se solicitó información para conocer el estado del arte de los sistemas basados en biochips para el análisis de la expresión génica en áreas como: - las arquitecturas de los sistemas empleados, -los requerimientos de interoperabilidad cuando se usan esos sistemas, -los resultados previos al análisis incluyendo los modelos de objetos y de datos, -componentes de software propuestos y que deberían ser diseñados junto con estos sistemas así como los posibles interfaces que los relacionen y por último los esfuerzos de estandarización ya existentes.

A la petición de información para una propuesta de estandarización del OMG, han ido respondiendo a lo largo del año 1999 las empresas NetGenics y Rosetta Inpharmatics y un el Instituto Europeo de Bioinformática (EBI), con diversas propuestas para los diferentes componentes que participan en el trabajo experimental con biochips.

Desde esta iniciativa se plantea la utilización de interfaces acordes con el OMG para el análisis de la expresión génica usando biochips. Para ello se han marcado como objetivos la mejora de calidad y utilidad del software y sistemas de información basados en CORBA y OMA (object management architecture), impulsar el desarrollo de herramientas y servicios interoperativos en las ciencias de la vida y la adopción de las tecnologías del OMG para la estandarización de los interfaces, herramientas, servicios y componentes en las ciencias de la vida. Otro de los planteamientos que surgen de esta propuesta es el establecimiento de unos estándares para los estudios de expresión génica no exclusivamente dedicados a los datos extraídos a partir de ensayos en los que se emplean biochips, sino extensivos a todos los ensayos de expresión génica.

La tercera de las propuestas de estandarización surge desde el NHGRI del gobierno estadounidense, y se ha denominado como 15K. Este proyecto de estandarización proviene de la labor investigadora de científicos pertenecientes al diferentes institutos y divisiones del Instituto Nacional de Salud norteamericano (NIH), incluyendo al NHGRI (National Human Genome Research Institute), NCBI (National Center for Biotechnology Information), NCI (National Cancer Institute), la Universidad de Stanford y Research Genetics. La principal labor de estandarización llevada a cabo por este proyecto se centra en la definición y establecimiento de una colección física de clones de cDNA para ser empleados en el diseño y la fabricación de los biochips. Este proyecto, dada su envergadura, está bajo continua revisión, expansión y desarrollo. De esta forma se ofrece a los investigadores el uso de una fuente bien caracterizada y revisada de material genético para ser inmovilizado.

Además del proyecto 15K el NIH ha establecido el Microarray Project, que es un proyecto por el cual se tiene acceso a las tecnologías basadas en biochips y en el cual se emplean unos arrayers y escáneres elaborados siguiendo unos criterios propios de estandarización y que dada la magnitud de los centros que forman parte del NIH debe ser tenido en cuenta. Dentro de este proyecto también se ha establecido el diseño y desarrollo de una base de datos relacional para almacenar los resultados de los experimentos y a la cual se puede tener acceso mediante la adquisición de un interfaz web diseñado a tal efecto.

Bases de Datos obtenidos mediante biochips

La situación actual pasa por la acumulación de los datos de los resultados de los experimentos basados en biochips en las bases de datos privadas de los investigadores. El importante auge que estas técnicas están teniendo en el ámbito de la investigación biomédica así como la extensión de su uso está sirviendo como un motor importante para el desarrollo de bases de datos públicas, impulsando la aparición de proyectos destinados a la generación de estos repositorios públicos con datos de estos experimentos en los que estos datos puedan ser almacenados para su posterior comparación y análisis. Una de las consecuencias de la gran capacidad de los biochips es que han permitido el desarrollo de grandes bases de datos de expresión génica, pudiendo ser estas bases de datos de expresión génica privadas y comercializadas, como por ejemplo Gene Express de Gene Logic, que es una base de datos generada empleando los GeneChips de Affymetrix.

Los proyectos de creación de bases de datos públicas tienen que ir necesariamente de la mano con los procesos de estandarización del trabajo con biochips, en este sentido es muy importante la estandarización de elementos tales como los controles internos empleados en los experimentos, los formatos en los que son presentadas las imágenes para ser almacenadas y la anotación de la información del material que se ha inmovilizado en cada punto del biochip.

En estos momentos existen diversas bases de datos capaces de recibir los datos de los resultados de los biochips, pero en muchos casos son bases de datos de expresión génica en general, es decir estas bases de datos lo que reciben es exclusivamente los resultados del proceso. Por el contrario se está desarrollando una nueva línea de trabajo que está dirigiendo sus pasos hacia la creación de bases de datos exclusivas de biochips con los datos de este tipo de experimentos.

Como ejemplos de bases de datos de expresión génica en las que pueden ser almacenados los datos de expresión génica procedentes de los chips nos encontramos con:

GDX www.informatics.jax.org/menus/expression_menu.shtml), una de las primeras bases de datos que integra diversos tipos de datos de expresión génica y que fue desarrollada con anterioridad a la irrupción de los biochips.

ExpressDB http://arep.med.harvard.edu/ExpressDB/ es una base de datos relacional que contiene más de 17.5 millones de entradas relacionadas con la expresión de RNA en levaduras.

PEDB Http://chroma.mbt.washington.edu/PEDB/

En las bases de datos diseñadas para utilizar con los biochips se podrían dar dos posibilidades, una en la que se almacenarían las imágenes y los datos numéricos de cada experimento, que tendría como ventaja el ser menos voluminosa, y una segunda opción en la cual lo que se almacenaría sería los experimentos, es decir, se almacenaría la información completa del ensayo, con la procedencia del material inmovilizado correspondientemente anotado, el protocolo seguido, etc… Esta segunda opción es más completa y contiene más información, siendo este mayor volumen el posible inconveniente.

En estos momentos se pueden distinguir entre tres etapas en las bases de datos para los biochips:

Bases de datos plenamente operativas, como ejemplo de estas bases de datos nos encontramos con:

- GenEx http://genex.sigenetis.com que es una base datos pública en la que los investigadores pueden publicar sus resultados, tanto en formato de texto como con las imágenes. Además permite emplear distintas herramientas para la visualización de los datos que contiene. Esta base de datos ha sido realizada por Silicon Genetics en colaboración con el National Center for Genomic Resources estadounidense.

- Base de datos de Stanford Microarray Database http://genome-www4.stanford.edu:8100 que contiene datos de expresión génica de levadura.

Bases de datos en periodo experimental, se puede poner como ejemplo de base de datos en periodo experimental la base de datos cDNA Microarray Database creada por la colaboración entre el NCI y el CIT.

Bases de datos en fase de diseño y desarrollo. Un ejemplo de proyecto de base de datos en este estado es la base de datos Array Express http://www.ebi.ac.uk/arryexpress/ propuesta por el Instituto Europeo de Bioinformática (EBI). Esta base de datos se puede poner como ejemplo de base de datos de experimentos, en la cual se almacenan un gran número de datos relativos al biochip que está almacenado, protocolos de trabajo, etc., así como los resultados posteriores. Ya se ha publicado la estructura y el diseño que va a tener esta base de datos.

Proceso con los chips	Ejemplos de referencias de interés
Gestión de equipos	Affymetrix GeneChip Suite
Tracking	Affymetrix LIMS
Tratamiento de imágenes	Cose Xdots Reader Array Vision - Imaging Research ImaGene - BioDiscovery
Análisis	Array SCOUT - Lion Bioscience Stingray - Molecular Applications Group Sinergy - Netgenics GeneSpring - Silicon Genetics Lifearray - Incyte Gene Express - GeneLogic
Herramientas completas de Data Mining	EDMT- Affymetrix GeneVision - BioDiscovery MineSet - Silicon Graphics
Iniciativas de Estandarización	Genetic Analisys Technology Consortium (GATC) Object Management Group (OMG) 15 K del NHGRI (National Human Genome Research Institute)
Bases de Datos	PEDB - Prostate Expression Database. Univ. of Washington - Seattle Array Express - EBI ExpressDB - Harvard GenEx - Silicon Genetics GDX Stanford cDNA Microarray Database - NCI y CIT

Bibliografía

Fernando Martín-Sánchez and Guillermo López-Campos. Tecnologías basadas en Biochips. Aplicaciones en diagnóstico clínico e investigación biomédica. 1998. II Symposium Internacional sobre Diagnóstico Genético en Medicina. Madrid.

M.S.Boguski: Bioinformatics a new era. Trends Guide to Bioinformatics 1 (1998) 1-3.

Michael Bittner, Paul Meltzer and Jeffrey Trent: Data analysis and integration: of steps and arrows. Nature Genetics 22 (1999) 213-215.

O.Ermolaeva and et al: Data management and analysis for gene expression arrays. Nature Genetics 20 (1998) 19-23.

Object Management Group. Life Sciences Research / Gene expression Request for information. 11-11-1998.

Zweiger, G.: Knowledge discovery in gene-expression microarray data: mining the information output of the genome. Trends in Biotechnology 17 (1999) 429-436.

Nº 25. Marzo/ Abril 2000

cefic@seneca.net