NVIDIA e MIT lançam o framework Lightning OPD, aumentando em 4x a eficiência da destilação de modelos enquanto eliminam problemas de memória da GPU

De acordo com reportagens, pesquisadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo framework de pós-treinamento para grandes modelos de linguagem que elimina a necessidade de manter um modelo professor em execução durante o treinamento. Ao pré-computar, offline, os log-probabilities do modelo professor, o framework melhora a eficiência do treinamento em 4x, enquanto libera todos os recursos de GPU para o treinamento do modelo aluno.

Em testes com 8 GPUs NVIDIA H100, o Lightning OPD conseguiu fazer a destilação de Qwen3-30B-A3B-Base (um modelo MoE com 30 bilhões de parâmetros) e atingiu 71,0 no benchmark AIME 2024, enquanto o OPD padrão ficou sem memória no mesmo hardware. Para o modelo Qwen3-8B menor, o framework exigiu apenas 30 horas de GPU para chegar a 69,9 pontos.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários