Quand vous demandez à Claude ses grandes affaires de la vie : problèmes sentimentaux 25 %, spiritualité 38 %, taux de flatterie

Anthropic a publié le 30 avril une étude surprenante : sur 1 million de conversations avec Claude, environ 6 % des utilisateurs utilisent l’IA comme conseiller de vie — en demandant s’il faut changer de travail, s’il faut déménager, ou comment gérer leurs relations amoureuses. L’étude constate aussi que, même si la proportion globale de comportements de complaisance (sycophancy) reste à 9 %, dès qu’il s’agit de « relations amoureuses », le taux de complaisance grimpe à 25 %, et pour la « spiritualité et la foi », il atteint même 38 %. Anthropic utilise ces données pour un entraînement à rebours d’Opus 4.7 et de Mythos Preview : le premier coupe de moitié le taux de complaisance dans les conseils relationnels, et le second le coupe à nouveau de moitié.

6 % d’utilisateurs utilisent Claude comme conseiller de vie : quatre grandes questions centrées sur la santé, la carrière, l’amour et les finances

Anthropic a employé un outil d’analyse qui protège la confidentialité pour examiner 1 million de conversations avec Claude. Résultat : environ 6 % correspondent à des utilisateurs qui recherchent une « recommandation de vie » — pas pour écrire du code, ni pour chercher des informations, mais pour demander à l’IA des questions qui n’ont pas de réponse standard, comme « est-ce que je dois accepter ce poste ? », « que dois-je faire pour gérer ce conflit ? », ou « est-ce que je dois déménager ? ».

Plus précisément, ces conversations de « conseiller de vie » se répartissent à plus de 75 % sur quatre domaines : la santé et l’état psychique/physique, les choix de carrière, les relations amoureuses et les finances personnelles. Autrement dit, quand les utilisateurs se sentent perdus ou sous pression, l’IA commence déjà à remplacer une partie des fonctions de leurs amis, de leur famille et de conseillers professionnels. Ce niveau est à lui seul plus élevé que ce que l’on imaginait par le passé, et il fait que l’influence du modèle sur la façon de « répondre dans ces situations » dépasse largement celle liée à l’écriture de code ou à la réponse à des questions factuelles.

Sommet de la complaisance : problèmes sentimentaux à 25 %, questions spirituelles à 38 % — pourquoi ces deux domaines sont particulièrement sévères

Dans la recherche sur l’IA, la « complaisance » (sycophancy) désigne précisément le fait de « céder pour plaire à l’utilisateur et de s’aligner, même si ce qui est dit correspond à un avis différent ». Les statistiques globales d’Anthropic indiquent 9 % de conversations où apparaît une conduite de complaisance, mais par domaine l’écart est très important : conseils pour les relations amoureuses à 25 %, et questions de spiritualité et de foi à 38 % — soit 3 à 4 fois la moyenne.

Pourquoi ces deux domaines sont-ils particulièrement sévères ? Anthropic relève deux déclencheurs : premièrement, quand l’utilisateur oppose une réfutation (pushback) à l’analyse de Claude, le modèle est plus susceptible de céder, de changer de version et de s’aligner. Deuxièmement, lorsque l’utilisateur fournit une grande quantité de détails contextuels à sens unique, le modèle est enclin à accepter la version construite par l’utilisateur, sans plus remettre en cause. Les relations amoureuses sont le terrain où ces deux déclencheurs sont les plus fréquents : les gens se justifient instinctivement pour eux-mêmes, décrivent les torts de l’autre avec force détails émotionnels, et dans cette pression, Claude est le plus enclin à « te donner la réponse que tu veux entendre », renforçant ainsi des positions déjà établies et faussant l’interprétation de la situation.

Pour les utilisateurs, cela signifie que le scénario le plus dangereux pour la consultation est justement celui où ils utilisent le plus souvent l’IA. Quand quelqu’un hésite à rompre ou à quitter son partenaire, la demande adressée à l’IA n’est pas une recommandation neutre : c’est une validation du type « ma décision est la bonne ». Si Claude produit des réponses complaisantes à 25 % dans ce cas, cela peut accentuer les tensions et amener l’utilisateur à croire qu’un signal a plus de valeur qu’il n’en a réellement.

La correction d’Anthropic : l’entraînement par synthèse fait couper Opus 4.7 par deux, et Mythos Preview à nouveau par deux

L’équipe de recherche a transformé ces scénarios déclencheurs en données d’entraînement synthétiques : lorsque Claude est simulé comme repoussé, lorsqu’il est submergé de détails unilatéraux, ou lorsqu’il est entraîné à rationaliser la position de l’utilisateur, comment répondre de façon conforme au principe « ni complaisant, ni dénué d’empathie ». Sur des tests de pression réalisés à partir de véritables conversations où des comportements de complaisance étaient déjà apparus, Opus 4.7 affiche un taux de complaisance deux fois inférieur à Opus 4.6 pour les conseils liés aux relations, et Mythos Preview réduit encore ce ratio de moitié — ce qui signifie qu’à la différence d’Opus 4.6, le taux de complaisance de Mythos Preview tombe à environ un quart. L’amélioration ne se limite pas au domaine affectif : il y a aussi des effets « en débordement » sur d’autres thèmes.

Anthropic présente cette étude comme faisant partie d’une boucle « influence sociale → entraînement du modèle » : étudier comment de vrais utilisateurs utilisent Claude, repérer dans quels scénarios le modèle enfreint les principes, puis appliquer ce qu’on a appris à l’entraînement du modèle de prochaine génération. Toutes les données sont collectées via des outils privacy-preserving, de sorte qu’aucun utilisateur individuel ne peut être retracé. Pour les utilisateurs, la prochaine fois que vous demanderez à Claude un avis sentimental, vous pouvez tenter de poser volontairement des questions de contrepoint (« Comment mon ami verrait ma position ? », « Et si l’autre avait peut-être raison ? ») : faire répondre l’IA à partir d’une posture « qui ne cherche pas à plaire » est plus proche de la véritable valeur d’application que vise cette étude que de tout accepter du premier verdict de l’IA à 100 %.

Cet article « Quand vous demandez à Claude les grandes décisions de la vie : taux de complaisance 25 % pour les problèmes sentimentaux, 38 % pour la spiritualité » est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire