SantéNLPApplied MLDocument AI

La voix du patient ne vit pas dans le dossier clinique.

Un institut de recherche en oncologie reconnu mondialement voulait entendre ce que disent les patients quand aucun clinicien n'écoute, nous avons construit le pipeline de social listening qui l'a fait remonter.

Ismail Mebsout•12 février 2026

L'enjeu

La donnée clinique est riche mais bornée. Elle capture ce qui a été prescrit, ce qui a été testé, ce qui a été observé en consultation. Elle capture très peu de ce que les patients vivent entre les rendez-vous, la texture des effets secondaires, la chronologie du diagnostic, le langage qu'ils utilisent pour décrire ce qui leur arrive. Pour un institut de recherche en oncologie travaillant sur le soin centré-patient, ce gap est conséquent. Les parcours de traitement réels, les patterns d'effets secondaires, les séquences diagnostiques, existaient dans la parole patient sur des plateformes publiques, mais sous une forme qu'aucune équipe clinique ne pouvait lire systématiquement. La question : pouvait-on transformer la parole patient non structurée en évidence research-grade ?

L'approche

01
Sourcer la parole de façon responsable.
Nous avons construit une couche de scraping curaté sur le contenu Twitter public lié au cancer du sein, aux traitements, aux étapes diagnostiques et aux expériences patient. Le corpus était scopé à une seule langue et géographie pour garder le signal recherche propre.
02
Détecter les entités qui comptent pour l'oncologie.
Le NLP off-the-shelf n'est pas tuné pour le vocabulaire oncologique. Nous avons construit une détection spécifique pour les traitements et molécules, les effets secondaires, les étapes diagnostiques et les indicateurs de stade du cancer, les entités qui doivent être extractibles pour que la recherche signifie quelque chose. Le choix éditorial : la précision plutôt que le recall. Un corpus plus petit de parcours bien extraits bat un corpus plus large de bruit.
03
Reconstruire le parcours, pas seulement les points de donnée.
La détection est l'input. La sortie qui compte, c'est le parcours patient, diagnostic à travers traitement à travers effets secondaires, séquencé dans le temps par individu. Nous avons mappé les traitements détectés sur des profils d'effets secondaires connus et assemblé les parcours à partir du signal dispersé qu'un patient laisse à travers plusieurs posts.

Le résultat

L'équipe de recherche a obtenu accès à des perspectives patient en temps réel qui n'apparaissent pas dans les records cliniques, la texture vécue du traitement que les statistiques ne capturent pas. Le pipeline a démontré les réseaux sociaux comme source de donnée research-grade pour l'oncologie, avec un framework qui s'étend à d'autres plateformes, langues et maladies. Des analytics agrégés sur les parcours de traitement et la fréquence des effets secondaires ont fait émerger des patterns que l'institut pouvait désormais investiguer cliniquement. Le déclic : un canal de recherche complémentaire à la donnée clinique, scopé pour s'étendre.

À retenir

“Dans les workflows de recherche, le gap entre donnée clinique et expérience patient est un problème de data engineering avant d'être clinique. Construisez le pipeline qui capture la parole, et les questions de recherche suivent.

Vous travaillez sur un domaine de recherche où la donnée la plus précieuse vit hors de vos systèmes institutionnels ? Nous aidons les équipes de recherche à transformer la parole publique non structurée en évidence structurée, de façon responsable et à l'échelle.

Discutons

Sourcer la parole de façon responsable.

Détecter les entités qui comptent pour l'oncologie.

Reconstruire le parcours, pas seulement les points de donnée.

Autres études de cas

Un problème qualité à 35 000 pieds est un problème de marque au sol.

Enfouissez un plan de vol sous des NOTAMs sans intérêt et les pilotes cessent de le lire.

Une proposition de crédit, c'est douze documents déguisés en un.

Restons en contact