![]() |
INFORSALUD 2004 |
La Cooperación entre Redes Sanitarias |
[Entrada] [Actividades] [Revista I+S] [Solicitud de Inscripción SEIS] [Búsquedas] |
¿Cómo llegar a la sede del Congreso? Secretaría Técnica: CEFIC
|
APLICACIÓN DEL RECONOCIMIENTO DEL HABLA EN SALUD A. GARCIA-LINARES, D. RECHE, J.M. RICHARTE Departamento de I+D+i. Novasoft
Sanidad S.A.
Resumen. El reconocimiento del habla, lejos de ser una tecnología de nueva aparición, lleva bastante tiempo en el mercado, pero con serias limitaciones técnicas en cuanto a tasa de reconocimiento de palabras, uso de diccionarios, y velocidad de proceso necesario para obtener unas tasas de respuesta aceptables. Estas limitaciones, y otras no menos importantes, no existen actualmente: Los Sistemas de Reconocimiento del Habla han bajado de precio considerablemente haciéndolos asequibles por el gran público, la velocidad de procesador y la cantidad de memoria necesaria no son hoy día una limitación ni técnica ni económica, y por otro lado las limitaciones en cuanto a la existencia de diccionarios especializados es casi inexistente gracias a las potentes funcionalidades que estos sistemas tienen para construir diccionarios especializados a partir del reconocimiento de textos almacenados previamente. A continuación se muestra un pequeño análisis del estado de la cuestión de esta tecnología junto a la experiencia de Novasoft Sanidad en la utilización de estas técnicas en PATWin (Sistemas de Información para Anatomía Patológica).
1. Introducción Desde hace tiempo los usuarios demandan nuevas formas de comunicación con el ordenador más afines al ser humano. Cansados de utilizar el teclado, dispositivo para la entrada de datos que requiere alguna habilidad de mecanografiado y cuyo uso no es todo lo ágil que se requiere. Dentro de la comunicación hombre-ordenador es el reconocimiento de voz el siguiente paso natural en la tecnología informática, disponiéndose ya de algunos sistemas útiles. El primer sistema comercial de reconocimiento de voz de uso genérico fue DragonDictate, un sistema de habla discontinua (discrete speech), y actualmente, los sistemas de reconocimiento utilizados se denominan "de habla continua", contienen un rico vocabulario, y pueden ser utilizados por múltiples usuarios.. El porcentaje de exactitud de los sistemas de reconocimiento de voz actuales es muy alto, por lo que la exactitud del reconocimiento no es un aspecto limitante en su utilización. El aspecto que limita la utilización de esta tecnología es el enfoque para integrar la funcionalidad del habla dentro de las aplicaciones. Hay muchos desafíos técnicos dentro de esta tecnología, los cuales incluyen: Alto nivel de exactitud. La tecnología debe ser percibida por el usuario como muy exacta, robusta y fiable. En este sentido, los principales retos ante los que se enfrentan los sistemas de reconocimiento de voz incluyen la variabilidad lingüística, la variabilidad del usuario y la variabilidad del canal, entre otros. Fácil de utilizar. El habla es sólo una de las varias posibles modalidades de entrada / salida de información entre un humano y una máquina, por tanto, las tecnologías de voz deben ser transparentes para el usuario, es decir, deben tener como objetivo la naturalidad y facilidad en la interacción hombre-máquina. Por otro lado, el usuario debe observar una serie de reglas para obtener el máximo rendimiento del sistema de reconocimiento del habla con una tasa de errores mínima. Entre estas "reglas" destacan: Entrenamiento completo del sistema: Aunque los sistemas comerciales permiten realizar un entrenamiento "abreviados", es más que conveniente realizar este entrenamiento de una forma completa, con el fin de alcanzar el máximo índice de reconocimiento con nuestra propia entonación. Utilización del sistema de ampliación de vocabulario antes de la utilización rutinaria: Paso imprescindible en aquellos programas que no incorporan vocabulario médico. Utilización de macros siempre que sea posible: Es posible distinguir entre Macros de Texto (permite sustituir una palabra o secuencia de palabras determinada por una o varias frases completas), Macros de Comando de navegación (permite grabar una secuencia completa de eventos generados tanto mediante teclado como mediante el ratón, pudiendo ser repetidos posteriormente con sólo pronunciar un comando), Macros de Programas (similares a las anteriores pero incluye la ejecución de rutinas de programas) y Macros Estructuradas (permiten diseñar en un procesador de texto todos los párrafos que han de constituir el texto completo, incluyendo aquellas variables que el programa pedirá al ejecutar esta macro). 2. Sistemas de Reconocimiento del Habla en el Mercado Dentro de los Sistemas de Reconocimiento del habla comerciales destacan básicamente tres soluciones de otras tantas empresas. Philips es una de las empresas pionera en el desarrollo de sistemas de reconocimiento de voz, aunque inicialmente esta empresa no diseñaba directamente aplicaciones en este sector, sino que su motor de reconocimiento era utilizado por otras empresas. Speech Magic, un producto de Philips es el producto estrella de esta empresa, con una exactitud de un 95%, ha sido utilizado en los campos de la Patología y de la Radiología sobre todo.
IBM dispone de soluciones tanto para el usuario doméstico como sistemas muy especializados, como IBM MedSpeak, fácil de personalizar e integrable en cualquier aplicación gracias a la utilización de controles Active-X y una interfaz con HL-7. IBM ViaVoice es el único producto que incluye un vocabulario médico en castellano, siendo su exactitud similar al resto, de un 95% y el tiempo de entrenamiento estimado es de 30 minutos. Scansoft, con su Dragon Naturally Speaking, dispone de una enorme experiencia en reconocimiento de voz, disponiendo probablemente del mejor motor de reconocimiento de voz que existe en el mercado, alcanzando una exactitud de un 95-98%, que lo convierte en un excelente producto disponible en español, a un precio similar al IBM ViaVoice.
3. Integración en los Sistemas de Información para la Salud Los Sistemas de Información Hospitalarios o de Atención Primaria tienen ante sí numerosos retos, muchos de ellos superados, como la mejora de la interfaz de usuario, la firma electrónica, la codificación automática, gestión de solicitudes de pruebas de laboratorios, etc. Sin embargo, son muy pocos los sistemas de información en salud que integran sistemas de reconocimiento de voz. Una solución adoptada es la integración de un sistema de reconocimiento de voz con el programa de diagnóstico de referencia médica rápida, que permite al médico incluir descripciones habladas de los hallazgos del examen físico u otras observaciones. El método se basa en la representación semántica de los hallazgos lo cual consigue minimizar el efecto de reconocimiento anómalo. Pero es en las especialidades médicas donde es mandataria la realización de informes (Anatomía Patológica, Radiología, Medicina Nuclear, etc) dónde la aplicabilidad de estos sistemas es más evidente y donde son obtenidos los mayores beneficios. En estas especialidades, los sistemas de reconocimiento de voz son bien aceptados por el personar médico y administrativo, siendo utilizados con los siguientes objetivos: Disminución del tiempo de realización del informe. Optimización en la gestión del flujo de trabajo. Aumentar el número de muestras diagnosticadas por el mismo número de patólogos. Optimización del tiempo del personal, mediante la utilización de textos y plantillas predefinidas que puedan ser activados por voz. Mejora en la calidad del informe obtenido, al reducirse tanto los errores gramaticaqles como de transcripción. Los pacientes se benefician de diagnósticos más rápidos y disminución de estancia en el hospital y por tanto, menores costes. Pero las aplicaciones de esta tecnología no termina aquí, sino que también están siendo utilizadas en la búsqueda de imágenes en bases de datos, manejo de sistemas de información gobernados por la voz, etc. 4. Conclusiones
A pesar de las evidentes mejoras en los Sistemas de Reconocimiento del Habla, la utilización en el colectivo médico es todavía escasa, en gran parte debido a dos importantes razones: la desconfianza del colectivo en las nuevas tecnologías y sobre todo en esta tecnología, y a que las empresas de desarrollo no implementan esta funcionalidades en sus Sistemas de Información Sanitaria. Por otro lado, el pobre rendimiento de estos programas frente al texto desconocido no se debe a una incompetencia del sistema sino a la gran cantidad de términos técnicos existentes en el lenguaje médico, punto este que puede ser solucionado fácilmente extendiendo la fase de entrenamiento o, mediante la utilización de diccionarios médicos concretos para cada especialidad médica. Por último es necesario destacar que el coste de estos sistemas de reconocimiento de voz disminuye constantemente, tendiéndose a la implantación de sistemas personales, que deberán ser adaptados a la especialidad de cada médico.
|
|
[Entrada] [Actividades] [Revista I+S] [Solicitud de Inscripción SEIS] [Búsquedas] |
Copyright SEIS© 1997-2004. |