Données numériques de santé : le "Health Data Hub" français crée la polémique

Le "Health Data Hub" a été lancé officiellement par l'Etat français le 1er décembre 2019. Cette collecte massive de données publiques de santé, afin d'améliorer la recherche médicale par l'intelligence artificielle, pose des questions de confidentialité et de souveraineté qui inquiètent de nombreux observateurs. 
Image
HDH
Le Health Data Hub contient toutes les données médicales françaises à des fins de recherche et est stocké dans le cloud Microsoft.
© Capture d'écran du rapport 2018 "Health Data Hub"
Partager8 minutes de lecture
Le Health Data Hub (HDH) a été déclaré par Emmanuel Macron comme une innovation "préfigurant la médecine demain", en mars 2018, après la remise du rapport Villani sur l'intelligence artificielle et l'annonce d'Agnès Buzyn de l'intégrer à sa loi santé. Censée permettre l'amélioration du pilotage du système de santé et développer de nouvelles techniques basées sur l'intelligence artificielle, cette plateforme a pour vocation principale de mettre à disposition des entreprises, professionnels de santé ou organismes de recherche, toutes les données issues des actes médicaux remboursés.

Le tout doit être hébergé - dans un premier temps - par une entreprise américaine, Microsoft. De quoi alimenter de nombreuses inquiétudes parmi les profesionnels du secteur médical, tout comme celui des défenseurs de la vie privée et des données personnelles.

Pseudonymisation et chiffrement chez Microsoft

Les centres de recherche publics, mais aussi des entreprises privées qui souhaitent développer des projets nécessitant un nombre important de données, peuvent présenter leurs demandes d'accès au HDH, sous condition de developper des projets d'intérêt général et après autorisation par la Cnil, le gendarme des données personnelles.

Le HDH est juridiquement un GIP (groupement d'intérêt public) financé par l'Etat mais aussi par le privé (qui devra payer des droits d'accès), à raison de 20 millions d'euros par an sur les quatre prochaines années. 


Le Health Data Hub (HDH) sur le site du gouvernement français

Le « Health Data Hub » a pour objectif de favoriser l’utilisation et de multiplier les possibilités d’exploitation des données de santé, en particulier dans les domaines de la recherche, de l’appui au personnel de santé, du pilotage du système de santé, du suivi et de l’information des patients.

Il permettra le développement de nouvelles techniques, notamment celles liées aux méthodes d’intelligence artificielle. Il aura un rôle de promotion de l’innovation dans l’utilisation des données de santé, et sera notamment associé aux instituts 3IA (Instituts interdisciplinaires d'intelligence artificielle) qui se sont positionnés dans le domaine de la santé, et plus généralement aux différentes initiatives portées par le gouvernement dans le cadre de la stratégie intelligence artificielle nationale.

Que doit permettre le HDH ?

Déterminer des prises en charge
adaptées et efficaces pour les maladies rares en agrégeant des observations de sources multiples. Dépister ou caractériser les états précancéreux grâce à l’intelligence artificielle. Doter les professionnels de santé d’outils pour accompagner le choix des meilleures options de prises en charge dans le contexte personnel du patient. Développer les essais cliniques virtuels. Suivre, en vie réelle et dans la durée, les impacts des innovations diagnostiques ou thérapeutiques et les effets croisés des prescriptions médicamenteuses.

Les données médicales personnelles contenues dans le HDH sont chiffrées (les données sont illisibles pour qui ne détient pas la clef de déchiffrement). La clef de déchiffrement des données n'est pas en possession de l'hébergeur. Le nom des patients n'apparaît pas, grâce à un procédé de pseudonymisation (les noms sont transformés en pseudonymes aléatoires et sans rapport). Ces précautions et garanties techniques - censées rassurer sur la confidentialité des données et le respect de la vie privée - n'ont malgré tout pas calmé les détracteurs du projet. Le HDH pose en effet plusieurs problèmes importants, avec en premier lieu sa localisation : le cloud de Microsoft. 

Certification et Cloud Act

Le choix du gouvernement français pour stocker les données d'actes médicaux de toute sa population s'est porté vers l'entreprise américaine... Microsoft. Attaqué sur ce choix un peu contradictoire, alors que la souveraineté numérique est pourtant dans toutes les bouches dans les ministères, le gouvernement s'est défendu par la nécessité "d'aller vite" : aucune entreprise française en capacité technique d'accueillir le HDH n'était encore "certifiée hebergeur de données de santé" en 2018. La liste des hebergeurs certifiés est pourtant longue et parmi eux, des poids lourds français du numérique s'y trouvent, comme Orange HealthCare

Le choix de Microsoft pour accueillir les données de santés françaises reste donc très controversé, particulièrement au regard de sa nationalité, qui soumet cette entreprise à une "règle administrative américaine d'exception" très inquiétante, le Cloud Act. Cette nouvelle disposition signée par Donald Trump en juin 2018 permet en effet à l'administration américaine d'obtenir la saisie légale et confidentielle de toutes les données localisées dans les datacenters des entreprises américaines... situés à l'étranger. 

(Re)lire : Surveillance numérique : le Cloud Act américain rend légale la saisie administrative des données à l'étranger

Si l'administration américaine est intéressée par les données de santé françaises du HDH, elle peut donc forcer Microsoft à lui en fournir une copie sans que personne en France ne soit au courant.

Avec le dossier médical partagé il est possible à des professionnels d’accéder à des données de santé sans l’accord des patients (...). D’ici 2020, la création et le lancement du Health Data Hub permettra de collecter des données plus variées.Extrait de l'article "Mes données de santé et moi" sur le site generationcare.fr

Des spécialistes rétorquent pour leur part que la plupart des algorithmes de chiffrement peuvent être "cassés" par la NSA (Agence de sécurité américaine) et que des techniques très efficaces de désanonymisation de données existent.

Données médicales personnelles sans consentement

Le rapport de 2018 sur le Health Data Hub explique très clairement le périmètre très large que recouvre la collecte de données de santé et la nécessité pour cette plateforme de récupérer tout ce qui concerne le domaine médical : "Il devient indispensable de constituer de grands jeux de données mobilisant des dossiers patients de plusieurs centres hospitaliers pour avoir une masse critique permettant de réaliser des inférences performantes et précises. De plus, dans un contexte de médecine ambulatoire, la recherche ne peut plus reposer uniquement sur les données des dossiers médicaux hospitaliers, elle doit également mobiliser ceux de la médecine de ville, ainsi que les données produites par les patients eux-mêmes."

Ce qui nous inquiète est plutôt l'aspect politique, puisque des données publiques sont centralisées pour le secteur privé, avec un accès facilité.Benoît Piédallu, membre de l'association La Quadrature du Net

Le Dossier médial partagé (DMP), toujours en phase de test, mais que l'Etat voudrait généraliser, est évidemment concerné par le projet HDH. Toutes les données des dossiers médicaux partagés déjà collectées en partie pour le SNDS (Système national de données de santé, sorte d'ancêtre du HDH aux informations plus réduites) vont être aspirées vers la nouvelle plateforme HDH, comme le souligne cet article du site spécialisé generationcare.fr : "[Avec le dossier médical partagé] sachez qu’il est possible à des professionnels d’accéder à des données de santé (remboursements, maladies professionnelles, causes de décès…) sans l’accord des patients, dans le cadre de la recherche et de l’innovation dans le secteur. Ces données sont "anonymisées" et sont regroupées au sein du Système national de données de santé (SNDS). D’ici 2020, la création et le lancement du Health Data Hub (HDH) permettra de collecter des données plus variées, toujours protégées par des "pseudonymes", pour faciliter le travail des chercheurs et accélérer les progrès."

Un progrès, mais à quel prix ? 

La Quadrature du Net (LQDN), l'association française de défense des libertés numériques, s'inquiète particulièrement de la centralisation et de l'accès unique des données de santé à des acteurs privés, ainsi que de l'utilisation "aveugle" de l'Intelligence artificielle (IA) pour le HDH.

L'un de ses membres, Benoît Piédallu, qui suit la création du hub depuis ses débuts, résume le problème, bien au-delà de la problématique de Microsoft : "La souveraienté du cloud ne change rien pour le HDH, puisque le prestataire ne sert en réalité à rien d'autre que stocker les données qui seront en plus chiffrées au préalable, par l'organisme en charge du projet. Ce qui nous inquiète est plutôt l'aspect politique, puisque des données publiques sont centralisées pour le secteur privé, avec un accès facilité. Tout ça est inquiétant, puisqu'on privatise nos données, avec le prétexte de faire tourner des intelligences artificielles d'entreprises censées réaliser des exploits pour la médecine, alors que l'on observe depuis 10 ans que ces outils ne sont pas si performants que ça et demandent de nombreuses interventions humaines pour s'améliorer. Sans oublier que personne ne sait comment sont traitées ces données, et de quoi sont faits les résultats..."

Les promoteurs du HDH estiment pour leur part, au contraire, que les avancées dans la recherche médicale par l'intelligence artificielle seront telles que les réticences à son égard disparaîtront vite. Droit d'opposition du RGPD pour faire retirer ses données de la plateforme par le patient, arrivée possible de l'hébergeur français OVH dans un an, arguments commerciaux de Microsoft "qui ne développe pas de services à partir de données de santé" : tout semble sous contrôle avec le HDH, pour ses promoteurs.

Mais les avancées promises pour la recherche médicale se paieront à un certain prix. Celui de risquer la confidentialité du secret médical de toute une population ? De laisser des entreprises privées s'enrichir à partir de données publiques grâce à des algorithmes non transparents aux résultats invérifiables ? Google a entamé pour sa part les hostilités sur le terrain des données de santé il y a peu, aux Etats-Unis, et ce, avec un succès très mitigé : 

En toute légalité, Google a accès aux dossiers médicaux détaillés de millions de patients américains, selon les révélations du Wall Street Journal. Des données comme des comptes rendus d’opérations, des diagnostics, des dossiers d’hospitalisation, des dates de naissances - partagées sans le consentement des patients. Le bureau des droits civiques, rattaché au département de la Santé et des Services sociaux américain, vient d’ouvrir une enquête fédérale sur cette collaboration qui a suscité de multiples interrogations aux États-Unis. (Article Le Figaro)

Pour l'heure le HDH a surtout débuté de façon administrative et dans l'annonce politique, puisque techniquement, rien n'est encore prêt, selon LQDN qui a rencontré les responsables de l'architecture technique. Une affaire à suivre...