Notícias do Gate News, a 11 de abril, a empresa de infraestruturas de IA Ramp Labs publicou resultados de investigação «Latent Briefing», permitindo uma partilha eficiente de memória entre sistemas multiagente através da compressão direta da cache KV de grandes modelos. Isto faz uma grande redução do consumo de Tokens sem perda de exatidão. Nas arquiteturas multiagente mais comuns, o orquestrador (Orchestrator) decompõe tarefas e chama repetidamente modelos de trabalhadores (Worker). À medida que a cadeia de inferência se vai tornando mais longa, a quantidade de Tokens cresce de forma exponencial. A ideia central do Latent Briefing é, com o auxílio do mecanismo de atenção, identificar as partes verdadeiramente essenciais no contexto e eliminar informação redundante diretamente na camada de representação, em vez de depender de resumos de LLM que são lentos ou de pesquisas RAG com baixa estabilidade. Nos testes de referência do LongBench v2, o método teve um desempenho notável: o consumo de Tokens do modelo Worker diminuiu 65%, a mediana de Tokens poupados em documentos de comprimento médio (32k a 100k) atingiu 49%, a exatidão global melhorou cerca de 3 pontos percentuais face à linha de base e o tempo adicional para cada compressão foi apenas de cerca de 1,7 segundos, o que equivale a acelerar aproximadamente 20 vezes em relação ao algoritmo original. O experimento usou Claude Sonnet 4 como orquestrador e Qwen3-14B como modelo de trabalhador, cobrindo cenários de documentos variados, como artigos académicos, documentos jurídicos, romances e relatórios governamentais. O estudo também descobriu que o limiar de compressão ideal varia em função da dificuldade da tarefa e do comprimento do documento — para tarefas difíceis, é mais adequado uma compressão mais agressiva para filtrar ruído de inferência oportunista; para documentos longos, é mais apropriada uma compressão mais ligeira para preservar informação-chave dispersa.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
CEO da Google: investimento de 185 mil milhões em capital para 2026; reforço dos investimentos na era dos agentes de IA
O CEO da Google, Sundar Pichai, anunciou a 22 de abril, na conferência Google Cloud Next realizada em Las Vegas, que a Google planeia investir entre 175 mil milhões e 185 mil milhões de dólares em despesas de capital em 2026, para construir a infraestrutura necessária para agentes de inteligência artificial autónomos (AI Agent), o que representa um aumento face aos 31 mil milhões de dólares em 2022.
MarketWhisper23m atrás
A Google revela a lista de candidatos ao novo lançamento da Jules e reposiciona-a como uma plataforma de desenvolvimento de produtos ponta-a-ponta
De acordo com o anúncio oficial da equipa Google Jules em 23 de abril, a orientação do produto da Jules evoluiu de um agente de codificação assíncrona para uma «plataforma de desenvolvimento de produtos agentic ponta a ponta». A nova versão consegue ler o contexto completo do produto, decidir de forma autónoma o próximo rumo de construção e submeter PR. Em paralelo, a equipa oficial anunciou a abertura de uma lista de candidatos para a nova versão.
MarketWhisper28m atrás
Google Jules Reposiciona-se como Plataforma de Desenvolvimento de Produtos Orientada por Agentes, de Ponta a Ponta, e Abre Lista de Espera para Nova Versão
Mensagem do Gate News, 23 de abril — A equipa da Jules, da Google, anunciou a abertura de uma lista de espera para uma nova versão do produto, reposicionando a Jules de um agente de codificação assíncrona para uma plataforma de desenvolvimento de produtos orientada por agentes, de ponta a ponta. Segundo a descrição oficial, a plataforma atualizada lê enti
GateNews1h atrás
A Perplexity revela o método de pós-treinamento do agente de pesquisa na web; o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo
A Perplexity utiliza SFT seguida de RL com modelos Qwen3.5, tirando partido de um conjunto de dados de QA multi-hop e de verificações por rubrica para melhorar a precisão e a eficiência da pesquisa, atingindo um desempenho FRAMES de referência.
Resumo: O fluxo de pós-treinamento da Perplexity para agentes de pesquisa na web combina fine-tuning supervisionado (SFT) para impor obediência a instruções e consistência linguística com aprendizagem por reforço online (RL) via o algoritmo GRPO. A fase de RL utiliza um conjunto proprietário de QA verificável multi-hop e dados conversacionais baseados em rubricas para impedir a deriva do SFT, com gating de recompensas e penalizações de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL atinge o melhor desempenho FRAMES, com 57,3% de precisão com uma única chamada de ferramenta e 73,9% com quatro chamadas a $0,02 por consulta, superando o GPT-5.4 e o Claude Sonnet 4.6 nestas métricas. A tarifação é baseada em API e exclui caching.
GateNews1h atrás
A Equipa de Codex da OpenAI Corrige um Bug de Autenticação do OpenClaw, Melhorando Significativamente o Comportamento do Agente
O OpenClaw muda de harness de Pi para o harness de Codex para corrigir uma falha silenciosa de autenticação, com dois PRs a abordar a ponte e o fallback; após a correção, o agente passa de uma sondagem superficial por heartbeat para um ciclo completo de trabalho, permitindo progresso.
Resumo: A otimização do harness de Codex do OpenClaw abordou uma falha crítica de autenticação que causava o fallback silencioso para o harness de Pi quando se usava Codex com modelos OpenAI. Dois pedidos pull corrigem a ponte de autenticação e evitam o fallback silencioso, alterando o adaptador em tempo de execução. Como resultado, o comportamento do agente evolui de uma sondagem superficial por heartbeat para um ciclo completo de trabalho que lê contexto, analisa tarefas, edita repositórios e verifica o progresso, melhorando a continuidade e a visibilidade entre heartbeats.
GateNews2h atrás
Agentes do OpenAI para o Workspace do ChatGPT: alimentados por Codex, partilha em equipa, integração com o Slack
A OpenAI lançou, a 22 de abril, os Workspace Agents no ChatGPT Business/Enterprise/Edu/Teachers, alimentados pelo Codex, com funcionamento em nuvem de longa duração, partilha entre equipas e execução offline. Podem responder proactivamente no Slack e lidar com faturação, executar fluxos de trabalho multi-etapa e suportar agendamento. A pré-visualização de investigação é gratuita até 6 de maio; depois, será aplicada uma cobrança baseada em créditos, com o preço a ser anunciado. Concorrendo em simultâneo com o GoogleGeminiEnterpriseAgentPlatform e o AnthropicClaudeCowork, as três soluções focam-se em agentes ao nível empresarial, mas a sua orientação é diferente em cada caso.
ChainNewsAbmedia3h atrás