Descomposición semántica de datos médicos

La mayoría de apps de salud almacenan información como archivos: un PDF aquí, una foto allí, un informe en una carpeta. Buscar significa desplazarse. La dinámica — comparar manualmente. Lissa Health eligió otro camino — descomposición semántica, desglosar cada documento en hechos médicos atómicos.

La trampa del enfoque centrado en documentos

Los registros médicos tradicionales hacen del documento la entidad principal. Carga un análisis de marzo de 2023 y otro de septiembre de 2024. Para comparar glucosa, abre ambos archivos y lee los números manualmente.

El modelo se rompe pronto: distintos laboratorios nombran la misma prueba de forma diferente («Glucose», «GLU», «Glucosa»), los rangos de referencia difieren, los hallazgos clínicos en texto libre son invisibles para búsqueda y analítica.

Arquitectura centrada en factores

Lissa Health invierte la jerarquía. Las entidades principales son factores médicos: biomarcadores, diagnósticos, prescripciones, observaciones clínicas. Cada uno tiene un código estándar (LOINC, SNOMED CT), valor, fecha y enlace al documento fuente.

Al cargar un PDF pasa por el pipeline: OCR → parsing NLP → normalización → validación → registro en el perfil longitudinal. El documento sigue accesible, pero la analítica trabaja con factores.

Por qué importan los códigos estándar

Sin estandarización, «glucosa» del Lab A y «GLU» del Lab B son dos filas no relacionadas. Con el código LOINC 2345-7 es un solo factor en un gráfico unificado.

Extracción de hallazgos clínicos

Más difícil que tablas numéricas — el narrativo: «cambios focales en la glándula tiroides», «signos de esteatosis hepática». El NLP los extrae como hallazgos SNOMED CT. Participan en el índice de salud e informes con IA.

Ventajas

Para usuarios: gráficos automáticos, índice de salud, edad biológica, informes con IA.

Para médicos: resumen estructurado, intercambio seguro por enlace, hasta 25 % de ahorro de tiempo en documentación.

Limitaciones

La calidad del OCR depende de la foto. Formularios no estándar requieren ajuste de modelos. El texto libre se reconoce con menor confianza. Mostramos confidence score y señales para revisión manual.

Conclusión

Pasar de documentos a factores convierte el archivo en un activo analítico — base para seguimiento de biomarcadores, gemelo digital e informes con IA.

Original publicado en Habr

Descomposición semántica de datos médicos ​

La trampa del enfoque centrado en documentos ​

Arquitectura centrada en factores ​

Por qué importan los códigos estándar ​

Extracción de hallazgos clínicos ​

Ventajas ​

Limitaciones ​

Conclusión ​