Acabei de ver que a PrismML lançou algo bastante interessante: a série Ternary Bonsai de modelos de linguagem. O que me chamou a atenção é que conseguiram reduzir drasticamente o consumo de memória GPU, baixando para uma nona parte em comparação com modelos de 16 bits. Basicamente usam pesos ternários de 1,58 bits que só podem assumir três valores: -1, 0 ou +1. Parece técnico, mas a ideia é eliminar conexões redundantes da rede neural para melhorar o raciocínio sem sacrificar desempenho.



A parte interessante do preço e acessibilidade é que o modelo Bonsai 8B ocupa apenas 1,75 GB de armazenamento em pesos, tornando-o super prático para dispositivos edge. Comparado com alternativas mais pesadas, o custo-benefício é bastante favorável. Alcançam uma média de 75,5 em benchmarks, superando até mesmo seu predecessor de 1 bit e modelos densos similares. O melhor é que funciona nativamente em dispositivos Apple, então não é necessário usar soluções alternativas complicadas.

Em termos de velocidade, em um iPhone 17 Pro Max conseguem 27 tokens por segundo com uma eficiência energética 3 a 4 vezes melhor. Isso é um avanço significativo para inferência em dispositivos móveis. Agora possuem modelos de 8B, 4B e 1,7B parâmetros, todos de código aberto no Hugging Face sob Apache 2.0. Para desenvolvedores que buscam soluções de IA de alto desempenho sem gastar uma fortuna em infraestrutura, esses modelos Bonsai parecem uma opção bastante sólida.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar