据动察Beating报道，Phi-Ground开源模型在截图加指令输入后可输出精确点击坐标。40亿参数版本经指令规划，在Showdown等基准中超越OpenAI Operator、Claude Computer Use，并在多项评测领先同类模型。团队用4000万条数据验证，发现坐标直接写成普通数字最有效，且将文字指令放在图片前输入以实现单向读图。还通过DPO强化学习提升纯视觉任务表现，并在高分屏场景用缩小截图贴在白画布的训练方法，Photoshop等场景效果显著。

区块律动

2026-05-10 04:21:00

摘要生成中

据动察 Beating 监测，微软开源了 Phi-Ground 模型家族，专门解决 AI 操控电脑时「该点屏幕哪里」的问题。给一张屏幕截图和一条指令，模型输出精确的点击坐标。开源的 40 亿参数版本搭配大模型做指令规划后，在 Showdown 基准测试中点击准确率超过了 OpenAI Operator 和 Claude Computer Use，并在 ScreenSpot-Pro 等五项评测中拿下百亿参数以下的全部第一。

团队用超过 4000 万条数据做了大规模验证，发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。真正管用的做法很简单：坐标直接当普通数字输出，比如「523, 417」。此前多篇论文给坐标专门发明了一套位置词汇表，希望模型像说单词一样说坐标，但大规模训练时这些新词根本学不好，反而导致模型崩溃。另一个关键是把文字指令排在图片前面输入。大模型读信息是单向的，先读到「点击蓝色设置图标」再看图，处理像素时就已经知道该找什么；反过来先看图，模型只能盲扫一遍，效果差很多。

团队还发现强化学习对纯视觉任务也有用。具体做法是让模型对同一张图做多次点击预测，挑出点对了和点错了的结果做对比训练（这类方法叫 DPO，属于强化学习的一种）。即使模型已经充分微调过，这一步仍能明显提高准确率。此前强化学习通常只用在需要推理的语言任务上，能在纯「看图指哪打哪」的感知任务上也起作用，是个意外收获。针对 4K 高分屏上按钮太小的问题（一个按钮可能只占屏幕面积的 0.07%），团队在训练时把截图按比例缩小后贴到一张大白底画布上，模拟高分屏下元素极小的真实场景。这一招在 Photoshop 等复杂专业软件上效果尤为明显。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
104.55万热度
#
BTC重返8万
5945.19万热度
#
日本国债上链24小时交易
190.9万热度
#
韩国加密征税倒计时
255.45万热度
#
Polymarket每日热点
87.14万热度

微软开源Phi-Ground：40亿参数点击准度赢了Operator和Claude

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶