Anthropic a annoncé vendredi un ensemble de mesures d’intégrité électorale conçu pour empêcher son chatbot d’IA Claude d’être utilisé comme arme afin de diffuser de la désinformation ou de manipuler les électeurs avant les élections législatives américaines de mi-mandat de 2026 et d’autres grands scrutins à travers le monde cette année. La société basée à San Francisco a détaillé une approche à plusieurs volets qui inclut des systèmes de détection automatisés, des tests de résistance contre des opérations d’influence, et un partenariat avec une organisation non partisane de ressources pour les électeurs — des mesures qui reflètent la pression croissante exercée sur les développeurs d’IA pour qu’ils surveillent l’usage de leurs outils pendant les périodes électorales.
Les politiques d’utilisation d’Anthropric interdisent à Claude d’être utilisé pour mener des campagnes politiques trompeuses, générer de faux contenus numériques destinés à influencer les débats politiques, commettre une fraude électorale, interférer avec l’infrastructure de vote, ou diffuser des informations trompeuses sur les processus de vote.
Pour faire respecter ses politiques électorales, Anthropic a testé ses modèles les plus récents à l’aide de 600 requêtes — 300 demandes nuisibles associées à 300 requêtes légitimes — afin d’évaluer avec quelle fiabilité Claude se conformait aux demandes appropriées et refusait les demandes problématiques. Claude Opus 4.7 et Claude Sonnet 4.6 ont répondu correctement 100% et 99,8% du temps, respectivement.
La société a également testé ses modèles contre des tactiques de manipulation plus sophistiquées. En utilisant des conversations simulées à plusieurs tours conçues pour reproduire les méthodes étape par étape que des acteurs malveillants pourraient employer, Sonnet 4.6 et Opus 4.7 ont répondu correctement 90% et 94% du temps, respectivement, lorsqu’ils ont été testés contre des scénarios d’opérations d’influence.
Anthropric a en outre testé si ses modèles pouvaient mener de façon autonome des opérations d’influence — planifier et exécuter une campagne à plusieurs étapes de bout en bout sans incitation humaine. Avec des garde-fous en place, ses derniers modèles ont refusé presque toutes les tâches, selon la société.
Sur la question de la neutralité politique, Anthropic réalise des évaluations avant chaque lancement de modèle afin de mesurer avec quelle constance et impartialité Claude s’engage avec des requêtes exprimant des points de vue à travers l’ensemble du spectre politique. Opus 4.7 et Sonnet 4.6 ont obtenu respectivement 95% et 96%.
Pour les utilisateurs recherchant des informations sur le vote, Claude affichera une bannière électorale les dirigeant vers TurboVote, une ressource non partisane de Democracy Works qui fournit des informations fiables et en temps réel sur l’inscription des électeurs, les lieux de vote, les dates d’élection et les détails des bulletins. Une bannière similaire est prévue pour les élections du Brésil plus tard cette année.
Anthropric a déclaré qu’il prévoit de continuer à surveiller ses systèmes et à affiner ses défenses à mesure que le cycle électoral avance.
Related News
Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU
Évaluation du marché secondaire d’Anthropic dépasse 1 billion de dollars : Forge Global dépasse OpenAI de 880 milliards
Quelle IA rend le plus manifestement votre statut et votre position ? Une étude révèle que les revenus des utilisateurs de Claude dépassent largement ceux de ses concurrents, Meta AI en fait le bas du classement
Le Royaume-Uni examine Anthropic AI pour renforcer la cybersécurité bancaire
Anthropic révèle l’empilement de trois bugs de Claude Code : dégradation du raisonnement, oubli du cache, contrecoup d’une instruction de 25 caractères