Article précédent
C’est encore plus frappant en période de Covid : nous sommes tous abreuvés de données. Mais ces data sont-elles fiables ? Comment éclairent-elles la société ? Par ailleurs, qui sont les femmes, peu mises en avant, qui évoluent dans cet univers ? C’est à ces questions qu’ont répondu les invité(e)s de l’Institut Louis Bachelier, du Laboratoire de probabilités, statistique et modélisation (LPSM), de la Sorbonne et de l’École nationale de la statistique et de l'administration économique Paris (ENSAE Paris), lors de la seconde édition de Women in Science, le 24 novembre 2020.
|
|
Pour sa toute première édition, fin 2019, Women in Science s’était donné pour mission de sortir les femmes de l’ombre ; de mettre en avant une communauté scientifique féminine très active.
Cette année encore, leur valorisation se trouve bien sûr au cœur de l’évènement. Elle est d’ailleurs le cheval de bataille de l’Institut Louis Bachelier, co-organisateur de la manifestation, qui finance/diffuse la recherche et met en lumière les femmes de la science via plusieurs initiatives. Le groupe héberge plus de 60 projets, dont un certain nombre de chaires : « plusieurs d’entre elles sont déjà dirigées par des femmes, mais la règle, désormais, est que tout nouveau projet doit systématiquement être dirigé par une femme ou associer une femme dans l’équipe de direction. Et cela fonctionne très bien ! » se félicite André Lévy-Lang, président et fondateur de l’Institut. L’association met également en ligne ses « ILB briefs », de courtes vidéos dans lesquelles autant de chercheuses que de chercheurs présentent leurs travaux et expliquent ce qui les ont menés à faire de la recherche. L’Institut développe enfin un « women ILB monitoring ». Objectif : promouvoir les carrières scientifiques auprès des lycéennes et des jeunes étudiantes.
Covid-19 : femmes sollicitées, « bien vite oubliées »
Alors qu’en 2020, la crise sanitaire en toile de fond donne nécessairement à Women in Science une nouvelle dimension, sans nier la gravité de la pandémie, Morgane Pannegeon, modératrice de l'événement, tente de lui attribuer « deux points positifs : elle a interrogé nos liens avec les data et les sciences, et elle a mis à nu nos interdépendances hommes/femmes ». Professeure émérite de mathématiques appliquées à la Sorbonne, Nicole El Karoui nuance : certes les femmes, notamment dans le corps médical, ont été énormément sollicitées, mais elles ont ensuite été « bien vite oubliées ». La prédominance des hommes dans le paysage scientifique serait même encore plus exacerbée par la Covid, juge-t-elle, d’après le nombre de publications scientifiques réalisées par des hommes, sans commune mesure avec le nombre de publications scientifiques réalisées par des femmes. Pour Nicole El Karoui, il faut donc « chercher à rééquilibrer le paysage », ce qui ne sera pas possible tant qu’il n’y aura pas suffisamment de femmes en sciences dures, en informatique et en biologie. « Les femmes ne doivent pas hésiter à se lancer, car la loi leur est favorable et les possibilités de recrutement sont importantes. Il faut, le plus tôt possible, orienter les jeunes filles vers cette direction, leur donner confiance », assure-t-elle. Et d’affirmer : « Hommes et femmes doivent travailler ensemble, cela permet une limitation des biais, une stimulation intellectuelle mutuelle et la rencontre de parcours différents. »
Outre la place des femmes, la crise sanitaire questionne autour de la transformation numérique, ajoute la professeure. Le confinement n’aurait en effet pas eu le même visage sans les progrès dans ce domaine. Toutefois, Nicole El Karoui estime que l’on fait face à une « cacophonie discordante » de tout ce qu’on peut lire et entendre sur la Covid, véhiculée, en particulier, par les réseaux sociaux. « De plus en plus, la question de savoir où est le vrai est difficile à cerner », observe-t-elle, inquiète face à ce qu’elle appelle un « effet gourou » : n'importe qui s’autorise à parler de n’importe quoi. « Le discours de la recherche scientifique est considéré comme une opinion comme une autre » – en bref, la science n’est plus un argument d’autorité, se désole la professeure.
Gestion de crise et prédictions statistiques
Nicole El Karoui évoque également un « océan de données ». Les prédictions statistiques, notamment, se sont multipliées dès que les autorités ont commencé à prendre au sérieux la question de la pandémie, début 2020.
Josselin Garnier, professeur au Centre de Mathématiques Appliquées de l’École Polytechnique, explique que les modèles proposés par les experts sont utilisés par les politiques pour les aider dans leur prise de décision. Le plus emblématique est certainement celui proposé en mars par l’équipe dirigée par l’épidémiologiste Neil Ferguson à l’Imperial College de Londres. Un modèle permettant de prédire l’évolution de la Covid en Grande-Bretagne et aux États-Unis, qui estimait le nombre de morts journaliers de mars à août, et avait annoncé 510 000 morts en Grande-Bretagne. Cependant, il s’agissait d’un « scénario du pire » : ces prédictions seraient réalisées seulement si aucune mesure de confinement n’était prise, souligne Josselin Garnier. Or, « Ferguson a prédit une catastrophe sanitaire, et cela a convaincu Boris Johnson de confiner le pays », rapporte le professeur. Au final, le 29 août, le Royaume-Uni recensait près de 41 500 morts pour plus de 331 000 cas positifs – chiffre bien en-deçà des prévisions, mais qui en faisait toutefois le pays d'Europe le plus endeuillé par la pandémie.
Si elles peuvent donc s’avérer être des outils importants, les prédictions interrogent : à quel point peut-on leur faire confiance ? Et comment sont-elles obtenues ? « Grâce à un modèle vieux de pratiquement un siècle, expose Josselin Garnier, le modèle compartimental. » La population est classée dans des « compartiments » correspondant à des classes épidémiologiques, c’est-à-dire aux différents « statuts » liés à la maladie, et le modèle est exécuté avec des équations différentielles ordinaires. C’est ce qui va permettre de prévoir la propagation de l’épidémie : durée, nombre d’infectés, etc. « Les coefficients sont à calibrer et dépendent de l’épidémie » (des conditions de transmission et du virus en lui-même), à partir des données disponibles – soit, à l’époque, et toujours aujourd’hui : le nombre de cas détectés par jour, le nombre d’admissions à l’hôpital, et le nombre de morts.
« Ferguson a donc calibré ce modèle compartimental, puis il a résolu les équations et obtenu ces prédictions. » Ces dernières étaient « vraisemblables », estime Josselin Garnier. Mais selon lui, si le jeu de paramètres déterminé par Ferguson était bien ajusté par rapport aux données, d’autres paramètres auraient toutefois donné des prédictions différentes. « Ces modèles ne sont pas très fiables », pointe-t-il.
Pour y remédier, l’analyse de sensibilité permet d’étudier la sensibilité du modèle aux différents paramètres, soit la façon dont des perturbations sur les variables d’entrée engendrent des perturbations de la variable de sortie. « Pour réduire les incertitudes de prédiction, il faut déterminer et collecter les données pertinentes afin de déterminer quels sont les paramètres importants », et donc diminuer les variations de la sortie, indique le professeur.
Josselin Garnier s’est ainsi interrogé sur une autre façon de rassembler des données, via un nouveau mode de collecte : des tests sur des échantillons aléatoires de la population, assortis d’un sondage. Josselin Garnier a monté ce projet avec Meriem El Karoui, professeure et directrice du Centre for Synthetic and Systems Biology à l’Université d'Edimbourg. Celle-ci le confesse volontiers : « L'échantillonnage aléatoire peut paraître trivial. Normalement, en épidémiologie, on monte des cohortes sur des critères particuliers et on les suit pendant des années ! »
Tous deux ont été mis en contact avec des collègues de l’APHP, des biologistes médicaux, mais aussi la start-up BePATIENT, spécialisée dans la collecte et l’utilisation des données biomédicales. « Il a fallu monter une étude de séroprévalence pour rechercher et échantillonner 8 000 personnes, et estimer combien de personnes avaient été en contact avec le virus », raconte Meriem El Karoui. Un questionnaire socio-démographique et un questionnaire médical étaient également prévus. « On a dû trouver un moyen pour que les données, à terme, soient anonymisées et compatibles avec les systèmes des laboratoires médicaux qui normalement n’anonymisent pas. » Malheureusement, et alors que le projet avançait, les analyses n’ont finalement pu être menées. « Les élections municipales qui avaient été suspendues ont été rouvertes : les personnes de la mairie de Paris qui nous accompagnaient ont dû reprendre leurs activités, puis le projet n’a pas pu se poursuivre auprès de la nouvelle équipe », confie la professeure. Un protocole a cependant été développé par l’INSERM (Institut national de la santé et de la recherche médicale) pour un échantillonnage aléatoire, « moins détaillé au niveau des régions mais sur la France entière », à l’origine de données publiées dès le mois de septembre, signale-t-elle.
Zoom sur les bases de données
Meriem El Karoui tente de voir le bon côté des choses : « Nous n’avons certes pas obtenu les données, mais nous avons tous réalisé un travail considérable pour écrire le processus de recherche, produire des données de qualité et fournir des modèles solides. » Elle souligne : « Ce n’est pas facile de faire de la recherche clinique au milieu d’une pandémie ! »
« La mobilisation des données de santé pour la recherche ou la production est semée d’embûches, et cela se révèle quand il y a une urgence de type crise sanitaire », abonde Emmanuel Bacry. Directeur de recherche au CNRS, il rend compte de problèmes « à tous les niveaux » : « du plus haut niveau de l’État en passant par les administrations, les institutions, les entreprises, les producteurs de données, jusqu’au citoyen en bout de chaîne, seul décideur du droit d’accès à ses données ».
Emmanuel Bacry rappelle qu’en France, nous ne sommes pas propriétaires de nos données de santé : cette indisponibilité a été consacrée par la loi informatique et liberté de 1978. Il s’agit de données à caractère personnel particulières, considérées comme sensibles, auxquelles on peut autoriser ou interdire l’accès. Le problème, selon le directeur de recherche, est que ce choix est bien souvent non éclairé. « Peu de personnes comprennent vraiment ce qu’il y a derrière le fait d’ouvrir ses données, lorsqu’elles cherchent à savoir si elles doivent les partager ou non, avec tout ce que l’on entend aujourd’hui. Comprendre les risques liés à l’ouverture ou à la fermeture des données de santé doit être notre première mission », insiste-t-il.
Car, gros avantage tricolore, l’Hexagone dispose de solides bases de données de santé (APHP, INSERM…), avec une spécialité française : le SNDS (Système national des données de santé), indique le directeur de recherche, « une des plus grosses bases de santé au monde ». Celle-ci regroupe les principales bases de données de santé publiques existantes, et rassemble les données médico-administratives pseudonymisées rattachées à tous les soins remboursés. « Or, comme en France, on rembourse presque tout, on peut dire que toutes les données françaises font partie du SNDS », résume-t-il. Par comparaison, aux États-Unis, seules les données de 15 millions de personnes sont accessibles (le pays compte plus de 328 millions d’habitants, ndlr), « des gens jeunes, riches, en bonne santé, qui ont une mutuelle privée ». Pas du tout représentatif, donc. « La base du SNDS est bien moins biaisée, même si elle l’est forcément un peu – elles le sont toutes. » La difficulté, c’est qu’aussi conséquentes soient les bases françaises, les données de santé sont « trop dispatchées », pointe Emmanuel Bacry. Il rapporte en outre un « problème énorme et terrifiant : celui de la gouvernance des données, qui est souvent complexe, parfois obscure, et très hétérogène ». Le directeur de recherche raconte qu’il a déjà mis trois ans à accéder à de la data. Selon lui, les enjeux de valorisation du travail du producteur de données prennent des « proportions inouïes ». Dernier obstacle principal : la non-interopérabilité des systèmes d’information de santé. En clair : il est compliqué de faire communiquer les données entre elles. « Si tel SAMU décide de coder Covid les gens simplement symptomatiques, alors que d’autres refusent de coder Covid les gens tant qu’ils n’ont pas passé de test qui s’avère positif, on obtient des données hétérogènes, et les faire discuter ensemble est un casse-tête. »
Un guichet unique : le Health Data Hub
Des problématiques qu’essaie de résoudre, à son échelle, le tout récent Health Data Hub mis en place par le gouvernement, dont Emmanuel Bacry a la direction scientifique. La plateforme a déjà fait couler de l’encre, puisqu’il lui est reproché d'avoir noué un contrat avec Microsoft pour l'hébergement des données – amenant la Cnil (Commission nationale de l'informatique et des libertés) à se prononcer sur le sujet, et le ministre de la Santé Olivier Véran à s’engager à mettre un terme à cet hébergement par le géant américain d'ici deux ans (ndlr).
Quel est ce « hub » et à quoi sert-il ? L’article 41 de la loi « Ma santé 2022 » indique qu’il s’agit d’un guichet unique dont la mission est de « réunir, organiser et mettre à disposition les données du SNDS ». Un projet « titanesque », reconnaît le directeur de recherche, voire utopique ? « Un portail d’accès à toutes les données, en pratique, c’est impossible, même avec une bonne dynamique. » Créé il y a un an, le Health Data Hub a été doté d’un budget de 80 millions sur quatre ans : « cela peut sembler beaucoup, mais ce n’est presque rien », souligne-t-il. Car viser l’interopérabilité – normaliser tous les systèmes de bases de données en France – se compterait « en milliards », avance Emmanuel Bacry.
Parmi les projets soutenus par la plateforme, le projet pilote « Hydro », porté par la start-up Implicity, vise à croiser les données de plusieurs milliers de pacemakers avec celles du SNDS, afin de prédire, via l’utilisation de l’intelligence artificielle, les crises d’insuffisance cardiaque des patients porteurs de ces prothèses.
Au titre des challenges qui attendent la plateforme, le directeur de recherche évoque, d’abord, la « consolidation de données massives et hétérogènes ». Il cite aussi le travail « main dans la main » avec les producteurs de données de santé. « Le but ultime serait qu’à terme, un chercheur puisse demander telle ou telle base pour travailler sur son projet et qu’il obtienne tout de suite ces données dans une “bulle sécurisée” – on en est loin ! ». La sécurité, voilà justement un autre défi qui attend le guichet. Enfin, Emmanuel Bacry souhaite poursuivre la « mission d’animation » académique et industrielle du Hub, via des colloques et des challenges, jugeant l’interdisciplinarité « fondamentale » : « Nous avons la possibilité d’un rayonnement économique et scientifique mondial. »
Le Health Data Hub a en tout cas un rôle à jouer dans la crise sanitaire. Un groupe de travail de 140 personnes est actuellement chargé de suivre les initiatives liées à la Covid-19 et de les faciliter, en fournissant un accès simplifié aux données de santé. Ces dernières doivent servir à mener des recherches pour améliorer la compréhension de la maladie. Une initiative vise ainsi à rapprocher, sur la plateforme, des scanners thoraciques et des résultats de tests PCR, pour développer des outils d’aide au dépistage de cas graves de Covid.
Les data au service de la transition numérique
Il n’y a d’ailleurs pas que les données de santé qui peuvent être utilisées dans le cadre de la crise sanitaire. Françoise Soulié-Fogelman, mathématicienne et experte en data mining et big data, fait référence aux graphes bipartis qui ont utilisé les données de mobilité issues des téléphones portables des Américains, pour déterminer à quels endroits ces derniers étaient infectés et identifier des zones de risques. Les mouvements ont été répartis par quartiers et par « points d’intérêt » – les restaurants, épiceries, etc. « Avec ces données-là, on a pu calibrer un modèle épidémiologique et faire de la prévision », explique Françoise Soulié-Fogelman. Les estimations ont ainsi montré que malgré les changements de comportement liés au virus, cela ne suffirait pas à changer la trajectoire de ce dernier dans le pays. « On peut agir en utilisant ces modèles pour estimer ce qui va se passer. Cela dit, plus le temps passe et plus l’écart entre la réalité et les prévisions grandit. Les processus stationnaires n’existent pas, le modèle à une date de péremption – c’est comme pour les yaourts », sourit la mathématicienne. Cette dernière juge également « intéressants » les modèles utilisés pour faire des scénarios « what if », autrement dit, « que se passe-t-il si ? » Que se passe-t-il si je rouvre les restaurants / salles de sport / hôtels ? « On obtient ainsi le nombre d’infections supplémentaires et on peut utiliser ces chiffres pour informer les politiques », indique Françoise Soulié-Fogelman.
L’exemple de la Covid confirme bien à quel point la data est un enjeu majeur du XXIe siècle. Toutefois, l’accès aux données est fortement générateur d’inégalités, juge la mathématicienne. Alors que certains algorithmes n’ont besoin de prendre en compte que peu de données, aujourd’hui, beaucoup de modèles ont besoin de big data, souligne-t-elle. C’est ce dont se rendent compte toutes les entreprises qui, en nombre croissant, ont recours à l’intelligence artificielle. Or, ces « mégadonnées », si elles donnent de très bons résultats, coûtent excessivement cher. Si l’on a peu de données à disposition, une technique consiste donc à avoir recours au transfer learning, en s’appuyant sur un réseau de neurones : par exemple, en ayant recours à YOLO, un réseau de neurones spécialisé dans la détection et l’analyse d’objets dans l’image. Pour Françoise Soulié-Fogelman, « la technique d’utiliser des librairies de réseaux entraînés va se développer de plus en plus, car bien que ça ne soit pas un problème pour Google d’aligner trois milliards d’images, pour une PME, c’est tout bonnement impossible ». Selon la mathématicienne, cette concurrence est « nocive » pour les entreprises. « Les techniques de small data devraient casser le monopole ! estime-t-elle. Ce n’est pas encore résolu, mais on explore. »
Anne-Sophie Taillandier, directrice de la plateforme TeraLab, précise que « toute la connaissance ne repose pas sur la donnée ». Il y a aussi des processus industriels où préexiste la connaissance physique du système, complétée par de la donnée. « On ne part pas d’une connaissance nulle ! » Françoise Soulié-Fogelman plaide justement pour des modèles hybrides, entre les modèles physiques et les modèles d’apprentissage pur.
De son côté, Charles-Albert Lehalle, responsable de l’analyse des données chez CFM (Capital Fund Management) insiste sur l’importance du « bon étiquetage » des données. « La curation des données, cela permet de comprendre des phénomènes ; les process d’exploitation des données. C’est le cœur du métier de data scientist, une fonction centrale qu’il faut valoriser. »
De la recherche à la start-up
Tandis que de plus en plus d’entreprises ont recours à l’IA, certains mettent à profit leur expérience scientifique pour lancer leur start-up. C’est le cas d’Alexandra Boussommier-Calleja. Cette ingénieure biomédicale a obtenu la bourse Marie Curie, qui s’est avérée être un tremplin. Après avoir rejoint un programme d’entrepreneurs, elle s’est questionnée sur les milieux dans lesquels la microscopie – sa spécialité – pourrait apporter des enseignements majeurs, et a fini par s’intéresser à la culture cellulaire dans la fécondation in vitro. Co-fondatrice de la start-up ImVitro, créée il y a un an, Alexandra Boussommier-Calleja a réalisé une première levée de fonds d’un million d’euros.
La jeune pousse utilise l’intelligence artificielle pour lutter contre l’infertilité. Un « problème réel » qui toucherait un couple sur six, déplore l’ingénieure. Si l’une des solutions médicales principales réside dans la fécondation in vitro (FIV), le problème est que les taux de succès stagnent autour de 20 à 30 %. « Trop souvent, il faut répéter l’opération : c’est cher, cela prend beaucoup de temps – surtout à un âge où on n’en a plus beaucoup pour concevoir –, et cela prend une énergie folle, c’est émotionnellement très difficile », constate Alexandra Boussommier-Calleja, qui dénonce un « problème sociétal, éthique, scientifique ».
La jeune femme a donc choisi d’approcher cette problématique en appliquant l’IA à l’analyse et à l’évaluation des embryons qui se développent en laboratoire. « Je veux aider les cliniques de fertilité, et mettre toutes les chances du côté des couples », soutient-elle.
Jusqu’à maintenant, la tendance était à l’implantation des deux tiers des embryons en espérant qu’au moins l’un d’entre eux mène à une naissance. Sauf que souvent, cela débouche sur des grossesses multiples, ce qui peut être dangereux à la fois pour la santé de la femme et des enfants à naître. « La nouvelle tendance est donc d’en implanter un seul, mais lequel ? C’est cette question qui justifie le besoin de start-up », affirme l’entrepreneuse.
ImVitro cherche ainsi à prédire quel embryon a le plus de chances de donner lieu à une naissance, dans la perspective de minimiser le nombre de traitements à subir par la patiente.
En amont, il y a d’abord toute la partie « embryologie ». Auparavant, étudier le développement des embryons nécessitait de sortir les embryons des incubateurs et de les regarder rapidement sous un microscope. Or, le changement de température était néfaste, raconte Alexandra Boussommier-Calleja, et le développement embryonnaire était jugé sur la base d’une image statique, amenant à passer à côté d’un grand nombre d’informations. Mais la nouvelle génération de microscopes, les « timelapse microscopes », permet dorénavant de placer les incubateurs dans les microscopes, et une image des embryons est prise toutes les cinq minutes pendant plusieurs jours.
Ensuite, c’est donc au moment de décider quel embryon implanter que l’embryologiste pourra avoir recours à la plateforme non-invasive d’ImVitro, basée sur un algorithme de deep learning, qui va servir à donner des estimations et, ainsi, à prendre des décisions plus robustes. « La FIV, d'après moi, est multifactorielle : c’est un cas d’école très intéressant scientifiquement pour ce genre d’algorithme qui peut prendre en compte beaucoup de facteurs. » L’ingénieure biomédicale le revendique : elle est « ravie » de « vivre chaque jour cette aventure entrepreneuriale ». Un autre message fort de cette deuxième édition de Women in Science.
Bérengère Margaritelli
Les plus vus
Au cœur de l'actualité !
Infos locales, analyses et enquêtes : restez informé(e) sans limite.
Abonnez-vous à la Newsletter !
Recevez gratuitement un concentré d’actualité chaque semaine.

0 Commentaire
Laisser un commentaire
Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *