10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
微软开源Phi-Ground:40亿参数点击准度赢了Operator和Claude
据动察 Beating 监测,微软开源了 Phi-Ground 模型家族,专门解决 AI 操控电脑时「该点屏幕哪里」的问题。给一张屏幕截图和一条指令,模型输出精确的点击坐标。开源的 40 亿参数版本搭配大模型做指令规划后,在 Showdown 基准测试中点击准确率超过了 OpenAI Operator 和 Claude Computer Use,并在 ScreenSpot-Pro 等五项评测中拿下百亿参数以下的全部第一。
团队用超过 4000 万条数据做了大规模验证,发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。真正管用的做法很简单:坐标直接当普通数字输出,比如「523, 417」。此前多篇论文给坐标专门发明了一套位置词汇表,希望模型像说单词一样说坐标,但大规模训练时这些新词根本学不好,反而导致模型崩溃。另一个关键是把文字指令排在图片前面输入。大模型读信息是单向的,先读到「点击蓝色设置图标」再看图,处理像素时就已经知道该找什么;反过来先看图,模型只能盲扫一遍,效果差很多。
团队还发现强化学习对纯视觉任务也有用。具体做法是让模型对同一张图做多次点击预测,挑出点对了和点错了的结果做对比训练(这类方法叫 DPO,属于强化学习的一种)。即使模型已经充分微调过,这一步仍能明显提高准确率。此前强化学习通常只用在需要推理的语言任务上,能在纯「看图指哪打哪」的感知任务上也起作用,是个意外收获。针对 4K 高分屏上按钮太小的问题(一个按钮可能只占屏幕面积的 0.07%),团队在训练时把截图按比例缩小后贴到一张大白底画布上,模拟高分屏下元素极小的真实场景。这一招在 Photoshop 等复杂专业软件上效果尤为明显。