D’après le suivi de Beating, une affirmation virale récente prétendait que l’insertion de tokens spéciaux comme <|begin_of_sentence|> dans la boîte de discussion de DeepSeek pourrait exposer les conversations d’autres utilisateurs, qualifiée d’échec d’isolation multi-tenant de niveau P0. En réalité, ce phénomène n’a aucun rapport avec l’isolation des données. Lorsqu’il est déclenché avec de tels tokens, le modèle entre dans ses schémas de format propres à l’entraînement et génère un dialogue fabriqué à partir de sa mémoire et de ses invites système, et non via une récupération en temps réel depuis d’autres sessions. Il s’agit d’une extraction de données d’entraînement, une vulnérabilité partagée par l’ensemble des grands modèles de langage, et non propre à DeepSeek. Google DeepMind a publié en 2023 une recherche montrant que des entrées spéciales peuvent extraire des données d’entraînement depuis GPT et PaLM. L’article Magpie ICLR 2025 exploite directement ce mécanisme. Les affirmations selon lesquelles le contenu divulgué inclurait la date d’aujourd’hui ne prouvent pas un échec d’isolation multi-tenant, car DeepSeek inclut la date actuelle dans son invite système, et les modèles l’intègrent naturellement dans la sortie générée.
Related News
OpenAI envisage de poursuivre Apple en justice : l’intégration de ChatGPT est décevante, la collaboration des géants de la tech tourne court
OpenAI ajoute la détection des conversations de crise sur ChatGPT, améliorant la capacité d’alerte en cas de violence d’automutilation
Nouvelle affaire de poursuites judiciaires contre ChatGPT ! Il est accusé d’avoir divulgué secrètement le contenu des conversations d’utilisateurs à Meta et Google