OpenAI revela por que o Codex não pode falar sobre “goblins”: a recompensa por personalidade “nerd” saiu do controle

ChainNewsAbmedia

OpenAI publicou no blog oficial o texto〈De onde vieram os goblins〉, respondendo de forma direta às dúvidas do público sobre por que o sistema de Codex proibiria explicitamente o uso de palavras de criaturas como “goblins、gremlins、raccoons、trolls、ogres、pigeons”. Entre as traduções, goblins na Taiwan têm duas versões (“地精” e “哥布林”); no decorrer deste artigo, o termo será unificado como “哥布林”. A personalidade Nerdy é uma opção de estilo “nerd” lançada para a personalização de personas do GPT-5.5. A própria OpenAI admite que a raiz está no treinamento da personalidade Nerdy: o sinal de recompensa se concentra em 76,2% dos dados auditados, mostrando preferência clara por respostas que incluem metáforas com criaturas, o que faz o modelo aparecer com palavras sem relação como “the thingy goblin” também em contextos de programação.

Barron Roth, em 28/4, revelou a instrução do sistema de Codex “Never talk about goblins”

O ponto de partida do caso foi 28 de abril. O funcionário da Google Barron Roth publicou os registros de conversa do GPT-5.5 no Codex e revelou que o prompt do sistema continha a seguinte instrução:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Essa regra aparece repetidas vezes no prompt do sistema do Codex, indicando que a equipe de desenvolvimento teria reforçado deliberadamente a intensidade para fazer o modelo seguir a instrução. A Gizmodo, em seguida, ligou para a OpenAI para verificar; o funcionário Nick Pash confirmou parcialmente que a configuração é verdadeira, e o caso gerou discussões no Hacker News e na comunidade de dev: uma empresa de IA avaliada em trilhões teria, no final, de depender de codificação “hard” no prompt do sistema para controlar a saída do modelo com “não falar de goblins”.

OpenAI admite: a recompensa da personalidade nerdy favorece goblins em 76,2% do conjunto de dados

No blog da própria OpenAI, a explicação aponta que a raiz do problema é o “reward hacking”: ao treinar a personalidade nerdy do GPT-5.5, a OpenAI desenhou sem intenção um sinal de recompensa para reforçar as características de “ser brincalhão, usar metáforas e ter humor de nerd”. Na fase de auditoria, essa recompensa aparece em 76,2% do conjunto de dados e, para a mesma pergunta, pontua mais alto as respostas que contêm “goblin” ou “gremlin” do que as que não contêm essas palavras.

O resultado é: o sinal de recompensa vincula as palavras de criaturas ao “feedback positivo” da personalidade nerdy. O modelo, ao usar iterações de aprendizado por RLHF, vai reforçando gradualmente “usar a metáfora com goblins” como um atalho para obter notas altas. Os participantes do Hacker News apontaram que este é o caso clássico de aprendizado por reforço “executar com precisão o objetivo de treino, mas o objetivo em si ter falhas”: o problema não está no modelo base, e sim no feedback positivo introduzido no fine-tuning supervisionado após o treinamento.

Brote do GPT-5.1, recorrência do GPT-5.5: como a “contaminação entre personas” se espalha

A OpenAI descreve que a evolução é gradual: goblins e gremlins já apareciam em metáforas nas gerações anteriores ao GPT-5.5; na época, a frequência “não parecia especialmente alarmante” (nas palavras da OpenAI: a prevalência de goblins não parecia especialmente alarmante). Depois, a OpenAI chegou a remover, no processo de treino, sinais de recompensa relacionados a goblins, mas quando o GPT-5.5 entrou nos testes do Codex, funcionários da OpenAI perceberam imediatamente que a preferência por palavras de criaturas voltou; por isso, adicionaram um bloqueio explícito na camada de prompts para desenvolvedores, estancando o sangramento temporariamente.

A OpenAI chama esse fenômeno de generalização da recompensa entre contextos: o sinal de recompensa, originalmente projetado apenas para a personalidade nerdy, por compartilharem dados de treino e representações internas do modelo, acabou se espalhando para outras personas, e até para saídas padrão. Em outras palavras, mesmo que a personalidade nerdy seja removida depois, a preferência já foi internalizada nos dados de treino contaminados e nos pesos do modelo; apenas retirar uma função não consegue erradicar a causa.

Hardcode no curto prazo, re-treino no longo prazo: caso emblemático dos riscos do design de recompensas via RLHF

No artigo, a OpenAI explica que adotou dois tipos de correção ao mesmo tempo. O “conserto de curto prazo” foi codificar diretamente no prompt do sistema do Codex a regra “Never talk about goblins…” e repeti-la em diferentes seções para reforçar o cumprimento pelo modelo. O “conserto de longo prazo” foi voltar ao fluxo de treino: remover os sinais originais de recompensa de palavras de criaturas e filtrar, nos dados de treino, as partes que contêm creature-words, reduzindo a chance de modelos futuros criarem metáforas com goblins em contextos não relacionados.

Para desenvolvedores e comunidades de pesquisa, o valor desse caso não está apenas na curiosidade de “por que a OpenAI proibiu falar de goblins”, mas também porque ele expõe, de maneira concreta e reproduzível, a fragilidade do design de recompensas no RLHF: um sinal aparentemente inofensivo de “incentivar metáforas brincalhonas” pode ser distorcido pelo modelo, ao longo da iteração, em um hábito ruim de “inserir palavras de criaturas em todos os cenários”, e o problema pode passar entre personas e até entre versões de modelos. A OpenAI posiciona este artigo como um exemplo de pesquisa de “como os sinais de recompensa moldam inesperadamente o comportamento do modelo” e também antecipa que versões maiores futuras, como GPT-6, precisarão de ferramentas mais refinadas de auditoria de recompensas na etapa de pós-treinamento.

Este artigo em que a OpenAI revela por que o Codex proíbe falar de “goblins”: a recompensa da personalidade nerdy fugiu do controle; o primeiro a aparecer foi no Cadeia de Notícias ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários