De acordo com a monitorização da Beating, uma recente alegação viral sugeriu que, ao inserir tokens especiais como <|begin_of_sentence|> na caixa de chat da DeepSeek, poderia expor as conversas de outros utilizadores, identificado como uma falha crítica de isolamento multi-tenant (nível P0). Na realidade, este fenómeno não tem relação com o isolamento de dados. Quando é acionado com esses tokens, o modelo entra nos padrões de formatação do período de treino e gera um diálogo fabricado com base na sua própria memória e nos prompts do sistema — não numa recuperação em tempo real a partir de outras sessões. Isto é Training Data Extraction, uma vulnerabilidade partilhada por todos os grandes modelos de linguagem, e não algo exclusivo da DeepSeek. A Google DeepMind publicou, em 2023, investigação demonstrando que entradas especiais podem extrair dados de treino do GPT e do PaLM. O artigo Magpie da ICLR 2025 aproveita diretamente este mecanismo. As alegações de que o conteúdo vazado inclui a data de hoje não provam uma falha de isolamento multi-tenant, uma vez que a DeepSeek inclui a data atual no seu prompt do sistema e os modelos naturalmente a incorporam na saída gerada.
Related News
OpenAI pondera processar a Apple: a integração do ChatGPT ficou aquém das expectativas e a cooperação entre gigantes da tecnologia parece ter falhado
A OpenAI adiciona a deteção de conversas em risco no ChatGPT, melhorando a capacidade de alertas para violência autoinfligida
Mais um processo legal para o ChatGPT! Acusado de ter divulgado secretamente o conteúdo das conversas dos utilizadores à Meta e à Google