Hallazgos clasificados
Un equipo de investigadores diseñó un programa de computación que clasifica automáticamente como “patológicos” o “no patológicos” los informes radiológicos, a partir de los textos escritos por los médicos. El objetivo es facilitar las tareas de diagnóstico, docencia e investigación del Servicio de Diagnóstico por Imágenes del Hospital Garrahan.
http://nexciencia.exactas.uba.ar/audio/VivianaCotik.mp3
Descargar archivo MP3 de Viviana Cotik
http://nexciencia.exactas.uba.ar/audio/JoseCastano.mp3
Descargar archivo MP3 de José Castano
http://nexciencia.exactas.uba.ar/audio/DarioFilippo.mp3
Descargar archivo MP3 de Darío Filippo
Actualmente, las tomografías, radiografías, ecografías y resonancias magnéticas que se efectúan en el Hospital Juan Garrahan de la Ciudad Autónoma de Buenos Aires son, aproximadamente, unas 120.000 por año. Encontrar en el archivo de ese gigantesco universo de imágenes aquellas que corresponden a una patología específica es equivalente a hallar una aguja en un pajar.
Esa búsqueda es una necesidad frecuente de los médicos del Servicio de Diagnóstico por Imágenes de esa institución. Por un lado, para poder llevar a cabo las tareas de investigación y docencia: “Este es un hospital universitario vinculado con la UBA en el que hacemos investigación y formamos médicos argentinos y extranjeros. Para ello, necesitamos poder revisar fácilmente nuestra producción y disponer de imágenes ilustrativas de distintas patologías que favorezcan el proceso de aprendizaje”, señala Darío Filippo, médico pediatra y radiólogo, integrante del Servicio.
Por otro lado, localizar un estudio específico es importante a la hora de escribir el informe diagnóstico que se entregará al paciente: “Al momento de hacer el informe, es muy valioso acceder en ese preciso momento a las imágenes relacionadas con la patología que estamos analizando, para poder comparar con las imágenes que uno está viendo. Porque, en general, los libros muestran imágenes muy bonitas pero que no siempre son las de nuestro paciente”.
Una Jornada de Data Mining (minería de datos) fue el escenario en el que Filippo se encontró con José Castaño -docente e investigador del Grupo de Autómatas, Lenguajes, Lingüística e Información (GALLI) del Departamento de Computación de la Facultad de Ciencias Exactas y Naturales de la UBA- y donde le comentó las necesidades del Servicio del Garrahan.
Aquel encuentro casual resultó en la reciente publicación de un trabajo científico en la revista Studies in Health Technology and Informatics, en el que se presenta el desarrollo de un algoritmo (un programa de computación) que, a partir del análisis automático de los textos escritos por los médicos en los informes radiológicos, permite discriminar los informes que describen hallazgos patológicos de los que no evidencian una patología.
Tamizado dificultoso
Los médicos del Garrahan redactan sus informes en una computadora. Esos textos digitalizados constituyeron la materia prima para el trabajo realizado por el GALLI. “En todo ese gran conjunto de texto plano, nuestro objetivo era detectar lo que los médicos denominan ‘hallazgos patológicos’, es decir, debíamos identificar términos que afirman la existencia de alguna patología de manera cierta”, explica Castaño.
Ese requisito de certeza, implicaba que el algoritmo debía ser capaz de descartar los informes que indicaran la posibilidad de una patología. “Por ejemplo, aquellos que expresaran ‘podría ser tal cosa’”, acota Castaño.
Asimismo, cuando detectara un término que nombra una patología, el programa de computación debía poder excluir los informes negativos. Por ejemplo, si el médico escribe “no se observan quistes”, el algoritmo identificará el término patológico “quistes”, pero, aun así, por no tratarse de un hallazgo, deberá descartarlo.
Por otra parte, dado que el algoritmo trabaja sobre los textos “en bruto”, es decir, sin correcciones previas, también debe reconocer los errores de tipeo y las abreviaturas, estas últimas muy habituales en los escritos médicos.
En este contexto de dificultades a resolver, los investigadores debían, además, “alimentar” el algoritmo con una base de datos que contuviera todos los términos patológicos y anatómicos utilizados en el diagnóstico por imágenes, de tal manera que el programa de computación pudiera “aprender” cuáles eran las palabras que debía reconocer.
“Utilizamos el RadLex, que es una base de datos gratuita que contiene todos los términos patológicos y anatómicos del dominio radiológico”, comenta Viviana Cotik, integrante del GALLI y otra de las autoras del trabajo. “El problema es que el RadLex está en inglés, así que tuvimos que traducirlo al español y, además, enseñarle a nuestro algoritmo a que reconozca los términos en orden invertido, que es una diferencia habitual entre ambos idiomas”
Una vez considerados todos estos obstáculos, el algoritmo resultante fue puesto a prueba para ver si era capaz de tamizar adecuadamente los informes radiológicos y seleccionar aquellos que contuvieran hallazgos patológicos ciertos. Para ello, sometieron al análisis informático a una muestra de 248 informes médicos de ecografías.
El resultado de ese testeo demostró que el algoritmo fue capaz de detectar el 83% de los informes que contienen hallazgos patológicos ciertos. En otras palabras, solamente “se le escabulleron” uno de cada seis de los textos de interés.A su vez, el algoritmo tuvo una precisión del 67%. Es decir, uno de cada tres de los textos seleccionados eran falsos positivos.
“Como un primer paso, el resultado es alentador”, opina Castaño, y concluye: “Esto es un primer tamiz de grano muy grueso que separa los informes que son interesantes de los que no lo son. Nuestro proyecto continúa con el fin de lograr identificar exactamente en qué lugar anatómico está ubicado el hallazgo y de qué tipo de hallazgo se trata”.