O Vision Banana da Google: Um modelo visual unificado supera modelos específicos de tarefa na segmentação e na geometria 3D

Mensagem do Gate News, 23 de Abril — Investigadores da Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo de compreensão visual de propósito geral criado através do ajuste fino leve de instruções do modelo de geração de imagens Nano Banana Pro ( Gemini 3 Pro Image) da empresa. A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e previsão de normais de superfície através de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.

Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação de expressões de referência, ultrapassou o SAM 3 Agent. No entanto, ficou aquém do SAM 3 na segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade atingiu 0,929 de precisão média em quatro conjuntos de dados padrão, excedendo os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informação real de profundidade ou parâmetros de câmara na inferência. A estimativa de normais de superfície alcançou resultados de última geração em três benchmarks interiores.

O ajuste fino envolveu dados mínimos de tarefas visuais misturados no treino original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treino de geração de imagens em visão é semelhante ao pré-treino de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, enquanto o ajuste fino por instruções apenas liberta esta capacidade.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

DeepSeek lança em open-source o TileKernels, biblioteca de kernels de GPU para o treino e a inferência de grandes modelos

Notícia de Gate, 23 de Abril — A DeepSeek lançou em open-source o TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para o treino e a inferência de grandes modelos de linguagem. O TileLang é uma linguagem específica de domínio desenvolvida pela equipa tile-ai para expressar kernels de GPU de alto desempenho em

GateNews4m atrás

A Samsung SDS alarga a parceria com o Google Cloud para servir setores regulamentados com serviços de IA e segurança

Notícia da Gate, 23 de abril — A Samsung SDS alargou a sua parceria com o Google Cloud para disponibilizar serviços de IA, computação em nuvem e segurança a setores regulamentados, incluindo o governo e os serviços financeiros. As empresas irão implementar o Google Distributed Cloud para clientes que necessitem de localização de dados, baixa latência e uma infraestrutura resiliente.

GateNews28m atrás

Sullivan & Cromwell pede desculpa por alucinações de IA num articulado judicial com 40 citações erróneas

Mensagem do Gate News, 23 de abril — Sullivan & Cromwell, um grande escritório de advocacia de Wall Street, pediu desculpa a um juiz federal depois de apresentar um articulado judicial que continha aproximadamente 40 citações incorretas e outros erros causados por alucinações de IA. Andrew Dietderich, co-chefe da equipa global de reestruturação do escritório, escreveu ao que segue

GateNews44m atrás

A Tencent Lança e Disponibiliza como Código Aberto uma Pré-visualização de Hunyuan Hy3 com 295B Parâmetros

Mensagem de Gate News, 23 de Abril — A Tencent lançou e disponibilizou como código aberto uma pré-visualização de Hunyuan Hy3, um modelo híbrido de linguagem com mistura de especialistas, que combina pensamento rápido e lento. O modelo tem 295 mil milhões de parâmetros no total, com 21 mil milhões de parâmetros ativos, suportando um comprimento máximo de contexto de 256K

GateNews58m atrás

A Coreia do Sul e o Vietname assinam 70+ memorandos de entendimento em IA, Energia e Infraestruturas de Dados

Mensagem do Gate News, 23 de Abril — A Coreia do Sul e o Vietname assinaram mais de 70 memorandos de entendimento (MOUs) durante a visita de Estado do Presidente Lee Jae Myung a Hanói, a 23 de Abril, abrangendo IA, energia, infraestruturas e telecomunicações. Um fórum empresarial com a presença de mais de 500 executivos discutiu IA e ecossistemas da indústria de energia, com grandes conglomerados coreanos incluindo Samsung, SK, LG e Hyundai representados.

GateNews58m atrás

Engenho de respostas por IA em contaminação colectiva: 56% das respostas correctas do Gemini 3 não têm suporte de fontes

Este texto indica que o motor de respostas por IA, ao fazer consultas, cita páginas web em tempo real; se as fontes forem geradas por IA ou carecerem de evidência, isso contamina os resultados. Não é necessário voltar a treinar para que produza efeito, sendo isso designado por contaminação por recuperação (retrieval contamination). Embora o Gemini3 tenha uma taxa de acerto elevada, 56% das respostas não têm fontes verificáveis; casos como Lily Ray, Grokipedia, etc., mostram que a IA é facilmente enganada por conteúdos inventados por si. A conclusão é que as citações se desligam de autores fiáveis, formando um ciclo de contaminação de auto-reforço; os utilizadores ainda precisam de recuar até às fontes originais e não devem tratar a resposta como o ponto final de verificação dos factos.

ChainNewsAbmedia1h atrás
Comentar
0/400
Nenhum comentário