De la Transcripción a la Predicción Clínica, Redefiniendo la Redacción Radiológica con Inteligencia Artificial

La radiología moderna se enfrenta a un desafío crítico donde la precisión diagnóstica y la velocidad de reporte colisionan con la ineficiencia administrativa. Mientras las tecnologías de captura de imágenes evolucionan rápidamente, el proceso de redacción de informes médicos se mantiene como una tarea exhaustiva. Este artículo explora cómo la inteligencia artificial predictiva puede transformar este flujo de trabajo, priorizando el juicio clínico del especialista por sobre la labor de transcripción.

Contexto

La situación actual del sistema de salud en Chile presenta un escenario de alta demanda asistencial con recursos humanos limitados, contando con solo 2.92 radiólogos por cada 100.000 habitantes. Esta cifra contrasta fuertemente con los países europeos de la OCDE, los cuales promedian alrededor de 12 especialistas por cada 100.000 habitantes. Este déficit de especialistas es un fenómeno global que afecta incluso a países desarrollados.

El principal cuello de botella en esta disciplina es la redacción de informes, ya que el enfoque del profesional médico debería centrarse exclusivamente en el diagnóstico y no en la tarea de escribirlo. Actualmente, el ecosistema depende de herramientas como el dictado grabado, la transcripción manual y transcriptores automáticos. Aunque existen tecnologías modernas de reconocimiento de voz como Whisper, estas soluciones no comprenden el texto como un contexto clínico en evolución y son propensas a generar alucinaciones.

Para ilustrar el impacto en los tiempos de respuesta, los datos internos revelan diferencias significativas según la modalidad y la complejidad del examen. Los casos simples requieren aproximadamente tres minutos, mientras que los casos de mayor complejidad pueden extenderse hasta seis minutos.

Promedio de Tiempo de Visualización

Dificultad de la Modalidad	Aproximación en Minutos
Modalidades más Lentas	06:11
Modalidades más Rápidas	03:03

Nota: Históricamente, los tiempos de elaboración de informes eran aproximadamente 1.6 veces mayores antes de la adopción de las herramientas actuales.

Problema

El desafío fundamental radica en que la elaboración del informe clínico aún exige una redacción completa por parte del médico. Las herramientas disponibles en el mercado no logran reducir de manera sustancial este tiempo invertido.

A nivel nacional, la inteligencia artificial aplicada a la imagenología presenta una baja tasa de adopción clínica debido a una desconfianza ante posibles falsos positivos o negativos, sumado a los altos costos de implementación. El sector de salud pública carece de los recursos necesarios para financiar estas plataformas, un escenario que describe perfectamente la realidad del cliente evaluado.

Sin embargo, el mercado hoy en día ofrece una nueva oportunidad técnica. El abaratamiento y la maduración de los modelos de predicción de texto permiten su aplicación en la escritura médica. El objetivo de esta iniciativa no es automatizar el diagnóstico clínico, sino asistir al radiólogo mediante la sugerencia de fragmentos estructurados, relevantes y fácilmente editables.

Solución

Para resolver esta problemática, se propone el desarrollo de un asistente virtual predictivo basado en una arquitectura Transformer. Este sistema fue entrenado utilizando un corpus de 270.000 informes anonimizados, los cuales fueron estructurados previamente por secciones clínicas, abarcando antecedentes, hallazgos e impresiones diagnósticas. El enfoque se inspira en los avances de modelos de lenguaje generativos y en trabajos previos de generación automatizada de reportes radiológicos. El desarrollo contempló la creación tanto de modelos generales como de modelos específicos adaptados a cada prestación médica para justificar la adecuación de la solución.

El diseño se fundamenta en estrictos principios técnicos y éticos para abordar el problema identificado. Para garantizar la privacidad del paciente, el sistema opera sin almacenamiento externo de datos, procesando la información directamente a través de la API del sistema original. Además, requiere obligatoriamente la revisión humana antes de cualquier validación final. El concepto operativo se inspira en el funcionamiento de herramientas colaborativas de código, dejando siempre el control definitivo en manos del profesional médico.

Impacto

Los resultados de la implementación se evaluaron en dos dimensiones principales para visualizar el impacto. Experimental y evaluación clínica.

Desde la perspectiva experimental, se ejecutaron tres pruebas comparativas con resultados medibles. Al contrastar modelos entrenados desde cero frente a modelos preentrenados, el enfoque desarrollado desde cero demostró una mayor eficiencia en el uso de recursos computacionales. Respecto a la arquitectura, los modelos configurados con dos y cuatro cabezales de atención evidenciaron el mejor desempeño. Finalmente, los modelos especializados por prestación médica superaron en precisión a los modelos de propósito general.

Para cuantificar el desempeño de los modelos, se utilizaron dos métricas principales. El Hit Ratio representa el porcentaje de predicciones correctas sobre el total de predicciones realizadas, indicando qué tan frecuentemente el sistema sugiere palabras que el médico efectivamente utiliza. Por otro lado, el Trabajo Reducido mide el esfuerzo ahorrado al usuario mediante la fórmula $(p + 0.4 \cdot q) / N$, donde $N$ es el total de palabras del informe, $p$ son las palabras predichas correctamente en cadenas largas (más de 1 palabra consecutiva) y $q$ son las palabras predichas de forma aislada. El factor 0.4 penaliza las predicciones de una sola palabra, ya que reducen menos el trabajo comparado con predecir frases completas.

Hit Ratio por Modelo

Modelo	Hit Ratio
Modelo General	71.93%
TC Columna Lumbar (específico)	57.34%
TC Encéfalo (específico)	76.10%
RM Columna Lumbar (específico)	73.13%
RM Encéfalo (específico)	80.66%

Comparación de Modelo General vs Modelo Específico por Prestación

Prestación	Tipo de Modelo	Hit Ratio	Trabajo Reducido
TC Encéfalo	General	79.86%	73.44%
TC Encéfalo	Específico	76.10%	73.13%
RM Columna Lumbar	General	73.20%	63.90%
RM Columna Lumbar	Específico	73.13%	67.60%
RM Encéfalo	General	80.76%	74.81%
RM Encéfalo	Específico	80.66%	77.04%

En cuanto a la evaluación clínica, el sistema fue puesto a prueba en un entorno real con especialistas. El personal médico destacó la facilidad de uso de la plataforma. Si bien la comparación del antes y el después evidenció que la herramienta aún no agiliza el tiempo total de redacción frente a las soluciones de dictado actuales, los médicos validaron que las predicciones generadas son coherentes y poseen un alto valor clínico.

Conclusión

El desarrollo de este asistente predictivo representa un avance tecnológico significativo, demostrando que la herramienta no intenta reemplazar al médico. Aunque actualmente no disminuye los tiempos de dictado, el sistema comprende el contexto clínico, propone contenido válido y establece las bases para nuevas modalidades de trabajo. El futuro de la imagenología clínica no reside en automatizar el juicio del profesional, sino en acompañarlo mediante colaboración asistida.

Referencias

Vergara, M. and Osses, H. (2007). Mapa de los radiólogos de Chile. Revista Chilena de Radiología. Dato de 2.92 radiólogos por cada 100.000 habitantes.
Gálvez Moya, M. (2017). Inteligencia Artificial en Radiología: ¿Seremos reemplazados? Revista Chilena de Radiología.
Jeganathan, Shalini (2023). The Growing Problem of Radiologist Shortages: Australia and New Zealand's Perspective. Korean Journal of Radiology, 24, 1043–1045. https://doi.org/10.3348/kjr.2023.0831
Vaswani, Ashish et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems, 30.
Radford, Alec et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.
Brown, Tom B. et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877–1901.
Wang, Zhanyu et al. (2022). Automated Radiographic Report Generation Purely on Transformer: A Multicriteria Supervised Approach. IEEE Transactions on Medical Imaging, 41, 2803–2813. https://doi.org/10.1109/tmi.2022.3171661
Garay-Vitoria, Nestor and Abascal, Julio (2005). Text prediction systems: a survey. Universal Access in the Information Society, 4(3), 188–203. https://doi.org/10.1007/s10209-005-0005-9
Koester, Heidi H. and Levine, Simon P. (1998). Model simulations of user performance with word prediction. Augmentative and Alternative Communication, 14(1), 25–35. https://doi.org/10.1080/07434619812331278186
Bhayana, Rajesh (2024). Chatbots and Large Language Models in Radiology: A Practical Primer for Clinical and Research Applications. Radiology, 310(1), e232756. https://doi.org/10.1148/radiol.232756