Décomposition sémantique des données médicales

La plupart des applications santé stockent l'information sous forme de fichiers : un PDF ici, une photo là, une lettre de sortie dans un dossier. Chercher, c'est faire défiler. La dynamique, c'est comparer manuellement. Lissa Health a choisi une autre voie — la décomposition sémantique, décomposer chaque document en faits médicaux atomiques.

Le piège du modèle centré sur les documents

Les dossiers médicaux traditionnels font du document l'entité principale. Vous téléchargez une analyse de mars 2023 et une de septembre 2024. Pour comparer la glucose, vous ouvrez les deux fichiers et lisez les chiffres à la main.

Le modèle se casse vite : des laboratoires différents nomment le même test différemment (« Glucose », « GLU », « Glycémie »), les plages de référence diffèrent, les constatations cliniques en texte libre sont invisibles à la recherche et à l'analytique.

Architecture centrée sur les facteurs

Lissa Health inverse la hiérarchie. Les entités principales sont des facteurs médicaux : biomarqueurs, diagnostics, prescriptions, observations cliniques. Chacun possède un code standard (LOINC, SNOMED CT), une valeur, une date et un lien vers le document source.

Lors du téléchargement d'un PDF, le pipeline s'exécute : OCR → parsing NLP → normalisation → validation → enregistrement dans le profil longitudinal. Le document reste accessible, mais l'analytique travaille sur les facteurs.

Pourquoi les codes standard comptent

Sans standardisation, « glucose » du labo A et « GLU » du labo B sont deux lignes sans lien. Avec le code LOINC 2345-7, c'est un seul facteur sur un graphique unifié.

Extraction des constatations cliniques

Plus difficile que les tableaux numériques — le narratif : « modifications focales de la thyroïde », « signes de stéatose hépatique ». Le NLP les extrait comme constatations SNOMED CT. Elles participent à l'indice de santé et aux rapports IA.

Avantages

Pour les utilisateurs : graphiques automatiques, indice de santé, âge biologique, rapports IA.

Pour les médecins : synthèse structurée, partage sécurisé par lien, jusqu'à 25 % de temps gagné sur la documentation.

Limites

La qualité OCR dépend de la photo. Les formulaires non standard nécessitent des mises à jour de modèles. Le texte libre est reconnu avec moins de confiance. Nous affichons le confidence score et des signaux pour vérification manuelle.

Conclusion

Passer des documents aux facteurs transforme l'archive en actif analytique — base du suivi des biomarqueurs, du jumeau numérique et des rapports IA.

Original publié sur Habr

Décomposition sémantique des données médicales ​

Le piège du modèle centré sur les documents ​

Architecture centrée sur les facteurs ​

Pourquoi les codes standard comptent ​

Extraction des constatations cliniques ​

Avantages ​

Limites ​

Conclusion ​