De acordo com o BlockBeats, o CEO da Coinbase, Brian Armstrong, afirmou em 27 de junho que a chave para manter custos de IA estáveis enquanto o uso de tokens cresce exponencialmente não é restringir o uso, mas usar melhores modelos padrão e mecanismos de cache. A Coinbase está adotando modelos de peso aberto como GLM 5.2 e Kimi 2.7 por meio de seu gateway de LLM, enquanto ainda incentiva os engenheiros a selecionar modelos apropriados para tarefas específicas. A empresa observou que 91% dos funcionários nunca atingiram os limites de uso, então, em vez de reduzir as cotas, ela mudou para modelos padrão de menor custo.
A Coinbase implementou tratamento de requisições ciente de cache e roteamento inteligente de modelos com base nas taxas de acerto de cache. Por exemplo, após otimizar a implementação de cache, a taxa de acerto de cache do LibreChat melhorou de 5% para 60%. Por meio dessas práticas, a Coinbase reduziu os gastos com IA em quase metade enquanto o uso de tokens continua crescendo.