Objectif : Construire une démarche de structuration des données cliniques à partir de l’interprétation des comptes rendus médicaux par des approches d’IA afin d’alimenter l’entrepôt de données institutionnel nécessaire aux travaux de recherche en cancérologie.
Utilisateurs cibles : Chercheurs
Origine du projet
- Travaux d’annotation des données chronophages manuellement
- Depuis 2014 : ce travail ne peut plus être réalisé de façon exhaustive au sein de l’Institut Curie au regard des volumes de données
Nature de la solution
- Classification de données textuelles par analyse de mots-clefs et association d’informations par item (catégorie de thématique de recherche)
- Pour chaque item clinique :
- Apprentissage à partir de phrases annotées manuellement issues du cluster d’intérêt
- Entrainement sur un set d’algorithmes ayant démontré leur potentiel
- Sélection du meilleur algorithme
Modèle de diffusion
- Accompagnement à l’appropriation de l’outil par les équipes de l’Institut
- Conduite de chaque projet de structuration d’un item clinique par un binôme médecin/data scientist pour garantir la qualité des résultats et éviter les projets doublons
Modalité d’évaluationet de validation
- Vérification de la qualité des extractions par comparaison entre :
- base de données structurées générées par la solution
- d’autres bases de données de référence (registres, bases institutionnelles)
- Modèle fiable si le score de performance est supérieur à 90-95%
Perspectives
- Généralisation de l’usage de l’outil à d’autres items cliniques
- Mise en Open Source du code source de l’outil pour permettre l’usage à d’autres établissements
Contacts
Julien Guerin,
responsable de l’équipe « Data Factory » à la Direction des Données,
Hijano Cubelos Oliver
ingénieur IA et porteur du projet
Thomas Balezeau (ingénieur en bioinformatique) et Armand Leopold (responsable infrastructure et sécurité).
Dr. Alain Livartowski
Conseiller médical et stratégique