預訓練配方19.7分鐘 vs 35.9分鐘,十輪搜索就搞定,效率黨狂喜

查看原文
ME News
斯坦福NLP團隊展示自動化AI研究新進展
斯坦福NLP在ICML 2026展示通过自动化执行器将LLM預訓練與後訓練轉化為執行環境,利用執行反饋提升研究效率。兩種方法:進化搜索在後訓練任務中優於GRPO(69.4%對48.0%),並在預訓練任務中找到的配方比nanoGPT更快(19.7分鐘對35.9分鐘),兩者均在十輪搜索內完成;基於執行獎勵的強化學習易發生模式崩潰,雖提升平均獎勵但未提高上限。該工作為執行導向的自動化AI研究指明方向。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆