De acordo com Beating, o Google Gemini 3.1 Flash-Lite saiu da prévia e entrou em disponibilidade geral (GA) em 8 de maio, tornando-se o modelo mais barato e mais rápido da série Gemini 3. O preço de entrada foi definido em US$ 0,25 por 1 milhão de tokens e o de saída em US$ 1,50 por 1 milhão de tokens — os custos de entrada ficam 75% menores do que o Claude 4.5 Haiku (US$ 1,00) e os de saída ficam 70% menores (US$ 5,00). O modelo tem uma janela de contexto de 1 milhão de tokens e alcança 363 tokens por segundo de throughput, 45% mais rápido do que seu antecessor Gemini 2.5 Flash.
Em benchmarks de desempenho, o GPQA Diamond (raciocínio em ciência no nível de graduação) chega a 86,9%, superando os 73,0% do Claude 4.5 Haiku e os 82,3% do GPT-5 mini. O MMMU-Pro (raciocínio multimodal) atinge 76,8%. Entre os primeiros adotantes estão a plataforma de atendimento ao cliente Gladly, que relata redução de 60% de custos e taxa de sucesso de 99,6% em cargas de trabalho em produção, e a JetBrains, que está integrando o Flash-Lite em ferramentas de assistência dentro do IDE.
Related News