Le modèle de langage large (MLL) permet de rédiger des articles persuasifs à partir de mots clés, de réussir des examens de compétence professionnelle et de rédiger des informations pertinentes et empathiques. Cependant, outre les risques bien connus de fiction, de fragilité et d'inexactitude des faits liés au LLM, d'autres problèmes non résolus retiennent progressivement l'attention, notamment la création et l'utilisation de modèles d'IA contenant des « valeurs humaines » potentiellement discriminatoires. Même si le LLM cesse de fabriquer du contenu et élimine les résultats manifestement préjudiciables, les « valeurs du LLM » peuvent encore s'écarter des valeurs humaines.
D'innombrables exemples illustrent comment les données utilisées pour entraîner les modèles d'IA encodent les valeurs individuelles et sociales, qui peuvent se consolider au sein du modèle. Ces exemples concernent diverses applications, notamment l'interprétation automatique des radiographies thoraciques, la classification des maladies cutanées et la prise de décision algorithmique concernant l'allocation des ressources médicales. Comme indiqué dans un article récent de notre revue, des données d'entraînement biaisées peuvent amplifier et révéler les valeurs et les préjugés présents dans la société. Au contraire, des recherches ont également montré que l'IA peut être utilisée pour réduire les biais. Par exemple, des chercheurs ont appliqué des modèles d'apprentissage profond à des radiographies du genou et ont découvert des facteurs non détectés par les indicateurs de gravité standard (évalués par les radiologues) au sein de l'articulation du genou, réduisant ainsi les différences inexpliquées de douleur entre les patients noirs et blancs.
Bien que de plus en plus de personnes prennent conscience des biais des modèles d'IA, notamment en termes de données d'entraînement, de nombreux autres points d'entrée des valeurs humaines ne sont pas suffisamment pris en compte dans le processus de développement et de déploiement des modèles d'IA. L'IA médicale a récemment obtenu des résultats impressionnants, mais dans une large mesure, elle n'a pas explicitement pris en compte les valeurs humaines et leur interaction avec l'évaluation des risques et le raisonnement probabiliste, et n'a pas non plus été modélisée.
Pour concrétiser ces concepts abstraits, imaginez que vous soyez endocrinologue et que vous deviez prescrire de l'hormone de croissance humaine recombinante à un garçon de 8 ans dont l'âge se situe en dessous du 3e percentile. Son taux d'hormone de croissance stimulée est inférieur à 2 ng/mL (valeur de référence : > 10 ng/mL, la valeur de référence pour de nombreux pays hors des États-Unis étant > 7 ng/mL), et son gène codant pour l'hormone de croissance présente de rares mutations d'inactivation. Nous pensons que l'application du traitement par hormone de croissance humaine est évidente et incontestable dans ce contexte clinique.
L'application d'un traitement par hormone de croissance humaine dans les cas suivants peut susciter la controverse : la taille d'un garçon de 14 ans a toujours été dans le 10e centile de celle de ses pairs, et le pic d'hormone de croissance humaine après stimulation est de 8 ng/ml. Aucune mutation fonctionnelle connue n'a d'incidence sur la taille, ni aucune autre cause connue de petite taille, et son âge osseux est de 15 ans (c'est-à-dire sans retard de développement). La controverse n'est due qu'en partie aux différences entre les valeurs seuils déterminées par les experts, sur la base de dizaines d'études portant sur les taux d'hormone de croissance humaine utilisés pour diagnostiquer un déficit isolé en hormone de croissance. Une controverse au moins aussi importante découle du rapport bénéfice-risque du traitement par hormone de croissance humaine, du point de vue des patients, de leurs parents, des professionnels de santé, des laboratoires pharmaceutiques et des organismes payeurs. Les endocrinologues pédiatriques peuvent évaluer les rares effets indésirables des injections quotidiennes d'hormone de croissance pendant deux ans avec la probabilité d'une croissance minimale ou nulle de la taille adulte par rapport à la croissance actuelle. Les garçons peuvent croire que même si leur taille ne peut augmenter que de 2 cm, cela vaut la peine de s'injecter de l'hormone de croissance, mais le payeur et la société pharmaceutique peuvent avoir des points de vue différents.
Nous prenons comme exemple le DFGe basé sur la créatinine, un indicateur de la fonction rénale largement utilisé pour le diagnostic et la stadification de l'insuffisance rénale chronique, la définition des conditions de transplantation ou de don de rein, et la détermination des critères de réduction et des contre-indications de nombreux médicaments sur ordonnance. Le DFGe est une équation de régression simple utilisée pour estimer le débit de filtration glomérulaire mesuré (DFGm), qui constitue une norme de référence, mais la méthode d'évaluation est relativement complexe. Cette équation de régression ne peut être considérée comme un modèle d'IA, mais elle illustre de nombreux principes relatifs aux valeurs humaines et au raisonnement probabiliste.
Le premier point d'entrée des valeurs humaines dans le DFGe est la sélection des données pour l'ajustement des équations. La liste initiale utilisée pour concevoir la formule du DFGe est principalement composée de participants noirs et blancs, et son applicabilité à de nombreux autres groupes ethniques n'est pas claire. Les points d'entrée suivants incluent : la sélection de la précision du DFGm comme objectif principal pour l'évaluation de la fonction rénale, la définition d'un niveau de précision acceptable, la méthode de mesure de la précision et l'utilisation du DFGe comme seuil de déclenchement de la prise de décision clinique (comme la détermination des conditions d'une transplantation rénale ou la prescription de médicaments). Enfin, lors de la sélection du contenu du modèle d'entrée, les valeurs humaines seront également intégrées à la formule.
Par exemple, avant 2021, les recommandations suggéraient d'ajuster les taux de créatinine dans la formule du DFGe en fonction de l'âge, du sexe et de l'origine ethnique du patient (classés uniquement comme personnes noires ou non noires). Cet ajustement basé sur l'origine ethnique vise à améliorer la précision de la formule du DFGm, mais en 2020, de grands hôpitaux ont commencé à remettre en question l'utilisation du DFGe basé sur l'origine ethnique, invoquant des raisons telles que le retardement de l'éligibilité du patient à la transplantation et la concrétisation de l'origine ethnique comme concept biologique. Des recherches ont montré que la conception de modèles de DFGe en fonction de l'origine ethnique peut avoir des impacts profonds et variables sur la précision et les résultats cliniques ; par conséquent, se concentrer sélectivement sur l'exactitude ou sur une partie des résultats reflète des jugements de valeur et peut masquer une prise de décision transparente. Enfin, le groupe de travail national a proposé une nouvelle formule, qui a été réajustée sans tenir compte de l'origine ethnique afin d'équilibrer les questions de performance et d'équité. Cet exemple illustre que même une formule clinique simple comporte de nombreux points d'entrée en matière de valeurs humaines.
Comparé aux formules cliniques ne comportant qu'un nombre limité d'indicateurs prédictifs, le modèle LLM peut comporter des milliards, voire des centaines de milliards de paramètres (pondérations du modèle), voire plus, ce qui le rend difficile à comprendre. L'explication réside dans le fait que, dans la plupart des modèles LLM, la méthode exacte d'obtention des réponses par questionnement ne peut être cartographiée. Le nombre de paramètres du GPT-4 n'a pas encore été annoncé ; son prédécesseur, le GPT-3, en comptait 175 milliards. Un nombre plus élevé de paramètres ne signifie pas nécessairement de meilleures performances, car les modèles plus petits, incluant davantage de cycles de calcul (comme la série de modèles LLaMA [Large Language Model Meta AI]), ou les modèles finement optimisés grâce aux retours humains, seront plus performants que les modèles plus grands. Par exemple, selon les évaluateurs humains, le modèle InstrumentGPT (un modèle avec 1,3 milliard de paramètres) surpasse le GPT-3 en termes d'optimisation des résultats de sortie.
Les détails de l'entraînement de GPT-4 n'ont pas encore été divulgués, mais ceux des modèles de génération précédente, notamment GPT-3, InstrumentGPT et de nombreux autres LLM open source, ont été dévoilés. De nos jours, de nombreux modèles d'IA sont fournis avec des cartes de modèle ; les données d'évaluation et de sécurité de GPT-4 ont été publiées dans une carte système similaire fournie par la société de création de modèles OpenAI. La création d'un LLM peut être divisée en deux étapes : la phase de pré-entraînement initiale et la phase de mise au point visant à optimiser les résultats de sortie du modèle. Lors de la phase de pré-entraînement, le modèle dispose d'un vaste corpus incluant le texte Internet original pour l'entraîner à prédire le mot suivant. Ce processus de « complétion automatique » apparemment simple produit un modèle fondamental puissant, mais il peut également conduire à des comportements nuisibles. Les valeurs humaines entreront en jeu lors de la phase de pré-entraînement, notamment la sélection des données de pré-entraînement pour GPT-4 et la décision d'en supprimer les contenus inappropriés, tels que les contenus pornographiques. Malgré ces efforts, le modèle de base pourrait ne pas être utile ni capable de produire des résultats nuisibles. Au cours de la prochaine étape de mise au point, de nombreux comportements utiles et inoffensifs émergeront.
Lors de la phase de réglage fin, le comportement des modèles linguistiques est souvent profondément modifié par le réglage fin supervisé et l'apprentissage par renforcement basé sur le retour d'information humain. Lors de cette phase, des sous-traitants écrivent des exemples de réponses pour les mots clés et entraînent directement le modèle. Lors de la phase d'apprentissage par renforcement basé sur le retour d'information humain, des évaluateurs humains classent les résultats de sortie du modèle comme exemples de contenu d'entrée. Les résultats de comparaison ci-dessus sont ensuite appliqués pour apprendre le « modèle de récompense » et améliorer le modèle par le biais de l'apprentissage par renforcement. Une implication humaine de faible niveau permet de peaufiner ces modèles de grande envergure. Par exemple, le modèle InstrumentGPT a fait appel à une équipe d'environ 40 sous-traitants recrutés sur des sites web de crowdsourcing et a réussi un test de sélection visant à sélectionner un groupe d'annotateurs sensibles aux préférences de différents groupes de population.
Comme le démontrent ces deux exemples extrêmes, à savoir la formule clinique simple [DFGe] et le puissant LLM [GPT-4], la prise de décision et les valeurs humaines jouent un rôle indispensable dans l'élaboration des résultats des modèles. Ces modèles d'IA peuvent-ils refléter la diversité des valeurs des patients et des médecins ? Comment guider publiquement l'application de l'IA en médecine ? Comme indiqué ci-dessous, un réexamen de l'analyse des décisions médicales pourrait apporter une solution raisonnée à ces problèmes.
L'analyse des décisions médicales est peu familière à de nombreux cliniciens, mais elle permet de distinguer le raisonnement probabiliste (pour les résultats incertains liés à la prise de décision, comme l'administration d'hormone de croissance humaine dans le scénario clinique controversé illustré à la figure 1) et les facteurs de considération (pour les valeurs subjectives attachées à ces résultats, dont la valeur est quantifiée par « utilité », comme la valeur d'une augmentation de 2 cm de la taille chez l'homme), fournissant ainsi des solutions systématiques aux décisions médicales complexes. Dans l'analyse des décisions, les cliniciens doivent d'abord déterminer toutes les décisions possibles et les probabilités associées à chaque résultat, puis intégrer l'utilité pour le patient (ou l'autre partie) associée à chaque résultat afin de sélectionner l'option la plus appropriée. Par conséquent, la validité de l'analyse des décisions dépend de l'exhaustivité du cadre de résultats, ainsi que de l'exactitude de la mesure de l'utilité et de l'estimation de la probabilité. Idéalement, cette approche permet de garantir que les décisions sont fondées sur des données probantes et conformes aux préférences du patient, réduisant ainsi l'écart entre les données objectives et les valeurs personnelles. Cette méthode a été introduite dans le domaine médical il y a plusieurs décennies et appliquée à la prise de décision individuelle et à l'évaluation de la santé de la population, notamment pour formuler des recommandations pour le dépistage du cancer colorectal en population générale.
En analyse des décisions médicales, diverses méthodes ont été développées pour déterminer l'utilité. La plupart des méthodes traditionnelles tirent directement profit des patients. La méthode la plus simple consiste à utiliser une échelle d'évaluation, où les patients évaluent leur niveau de préférence pour un résultat donné sur une échelle numérique (par exemple, une échelle linéaire allant de 1 à 10), les résultats de santé les plus extrêmes (comme la santé complète et le décès) se situant aux deux extrémités. La méthode de l'échange de temps est une autre méthode couramment utilisée. Dans cette méthode, les patients doivent décider combien de temps en bonne santé ils sont prêts à consacrer en échange d'une période de mauvaise santé. La méthode standard du jeu est une autre méthode couramment utilisée pour déterminer l'utilité. Dans cette méthode, on demande aux patients laquelle des deux options ils préfèrent : soit vivre un certain nombre d'années en bonne santé avec une probabilité spécifique (p) (t) et assumer le risque de décès avec une probabilité de 1-p ; soit s'assurer de vivre t années dans des conditions de santé variées. Interrogez les patients plusieurs fois à différentes valeurs de p jusqu'à ce qu'ils ne manifestent plus de préférence pour aucune option, afin de pouvoir calculer l'utilité en fonction de leurs réponses.
Outre les méthodes utilisées pour recueillir les préférences individuelles des patients, des méthodes ont également été développées pour en tirer profit pour la population de patients. Les groupes de discussion (rassemblant des patients pour discuter d'expériences spécifiques) peuvent notamment aider à comprendre leurs points de vue. Afin d'agréger efficacement l'utilité du groupe, diverses techniques de discussion structurée ont été proposées.
En pratique, l'introduction directe de l'utilité dans le diagnostic clinique et le processus thérapeutique est très chronophage. Pour y remédier, des questionnaires d'enquête sont généralement distribués à des populations sélectionnées aléatoirement afin d'obtenir des scores d'utilité à l'échelle de la population. Parmi les exemples, on peut citer le questionnaire à 5 dimensions EuroQol, la version courte de pondération de l'utilité à 6 dimensions, l'indice d'utilité de santé et le questionnaire sur la qualité de vie Core 30 de l'Organisation européenne de recherche et de traitement du cancer (ECRTO).
Date de publication : 01/06/2024




