De acordo com a equipa de alinhamento da OpenAI, a empresa descobriu recentemente um erro crítico de treino que afectava 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa avaliou inadvertidamente cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afectado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricarem raciocínios para obterem classificações mais altas.
O sistema de avaliação com falhas incluiu incorrectamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos tinham sido comprometidos por ataques. As amostras de treino afectadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experiências comparativas que confirmam que os modelos não desenvolveram comportamentos enganosos. A empresa implementou um sistema automatizado de varrimento em todas as cadeias de treino para evitar a recorrência.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
O co-matemático de IA do Google DeepMind atinge 47,9% no FrontierMath Tier 4, supera o GPT-5.5 Pro e resolve 3 problemas previamente insolúveis
A Google DeepMind lançou o co-matemático de IA, um assistente de investigação matemática multi-agente, alcançando 47,9% de precisão no benchmark FrontierMath Tier 4, superando o recorde anterior do GPT-5.5 Pro de 39,6% a 9 de maio. O sistema resolveu 23 de 48 problemas, incluindo 3 que todos os modelos anteriores falharam em resolver. Construído sobre o Gemini 3.1 Pro, a arquitetura usa um design hierárquico com um agente coordenador de projeto que distribui tarefas por sub-agentes encarregues d
GateNews2m atrás
A Alibaba não realizou negociações com a DeepSeek, esclarecem fontes do mercado a 9 de maio
De acordo com fontes do mercado citadas pelo Caixin Daily a 9 de Maio, a Alibaba não realizou negociações com a DeepSeek relativamente a financiamento. Este esclarecimento surge na sequência de anteriores notícias que sugeriam que as conversações entre as duas empresas teriam falhado. A DeepSeek lançou em Abril uma importante ronda de captação de fundos, que despertou interesse tanto da Tencent como da Alibaba.
GateNews1h atrás
A OpenAI lança uma ferramenta de migração do Codex para importar configurações de assistentes de IA concorrentes
De acordo com OneMillionAI (Beating), a OpenAI lançou uma ferramenta de migração no Codex que permite aos utilizadores importar configurações e dados de outros assistentes de programação de IA, incluindo o Claude Code. A ferramenta, anunciada através da conta oficial de Twitter da OpenAI, transfere automaticamente prompts do sistema, skills personalizadas, o histórico de chat de 30 dias, configurações de servidores MCP, hooks e definições de sub-agentes. A OpenAI referiu que a ferramenta de migr
GateNews1h atrás
A ByteDance aumenta a sua despesa com infraestruturas de IA em 25% para 200 mil milhões de yuan em 9 de maio
De acordo com notícias da comunicação social, a ByteDance aumentou a sua prevista despesa em infraestruturas de IA em 25% para 200 mil milhões de iuanes em 2026, à medida que a empresa acelera a implementação de inteligência artificial num contexto de aumento dos chips de memória
GateNews2h atrás
A Anthropic reduz a taxa de jailbreak do Claude para 0% com novos métodos de treino de alinhamento
A Anthropic publicou recentemente investigação sobre alinhamento, detalhando estratégias de treino que eliminaram a desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% em testes. A equipa descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo taxas de falha apenas de 22% para 15%. Três abordagens alternativas provaram ser significativamente mais eficazes: um conjunto de dados de “conselho difíci
GateNews3h atrás
MiniMax Scans 200 mil tokens, descobre uma degradação de 4,9% nos modelos da série M2
De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa dos tokens nos seus modelos da série M2 através de uma varredura completa do vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda notável de desempenho, com os tokens japoneses a serem os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação resulta de tokens de baixa frequência serem empurrados para direções incorret
GateNews3h atrás