微软开源Phi-Ground:40亿参数点击准度赢了Operator和Claude

robot
摘要生成中

币界网消息,微软开源了Phi-Ground模型家族,专门解决AI操控电脑时「该点屏幕哪里」的问题。开源的40亿参数版本在Showdown基准测试中点击准确率超过了OpenAI的Operator和Claude,并在Screenspot-Pro等五项评测中拿下百亿参数以下的全部第一。团队用超过4000万条数据进行了大规模验证,发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。有效的做法是将坐标直接当普通数字输出,如「523, 417」。团队还发现强化学习对纯视觉任务也有用,具体做法是让模型对同一张图做多次点击预测,挑出点对了和点错了的结果进行对比训练。针对4K高分屏上按钮太小的问题,团队在训练时将截图按比例缩小后贴到一张大白底画布上,模拟高分屏下元素极小的真实场景。这一招在Photoshop等复杂专业软件上效果尤为明显。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论