11:08人类全通关、AI最高0.37%:ARC-AGI-3用「未知游戏」测Agent真智能ARC Prize 基金会推出 ARC-AGI-3 基准测试,要求 AI 在无指导下自主探究 64×64 网格世界并行动,评分基于“动作效率”。相比前代,此版本更严谨,避免模型使用记忆捷径。谷歌 Gemini 3.1 Pro Preview 得分最高为 0.37%。展开
11:01OpenAI 为 ChatGPT 推出文件库功能,支持快速调用和统一管理Gate News 消息,3 月 24 日,OpenAI 宣布为 ChatGPT 新增文件管理功能。用户可通过工具栏快速调用近期上传的文件,直接针对已上传内容进行提问,并在网页侧边栏的 Library 标签中统一浏览和复用文件。该功能目前正向 Plus、Pro 和 Business 订阅用户全球推出,欧洲经济区、瑞士和英国地区将稍后上线。
02:04Claude 推出电脑控制功能,可直接操作用户电脑完成任务Claude 于3月24日发布公告,用户现可通过其功能操作电脑,展示应用、浏览网页等。目前为研究预览版,仅支持macOS,功能限制在Pro和Max用户中。用户可远程分配任务并设置重复执行。展开
08:27Google Gemini CLI 下周收紧政策:免费用户仅限 Flash 模型,打击 OAuth 滥用Gemini CLI 将于3月25日起实施三项政策调整:免费用户无法访问Pro模型、流量分配优先级调整、升级滥用检测机制。开发者可通过AI Studio或Vertex AI获取付费API密钥。展开
06:56隐私AI赛道升温:Venice推出端到端加密模型,VVV代币单日上涨10%每日新闻价格异动项目进展代币活动Venice推出全新加密AI接口,采用端到端加密和可信执行环境,强调“可验证隐私”,VVV代币价格因此上涨约10%。该项目强化了数据安全,但部分功能受限于未加密数据,当前仅向Venice Pro用户开放。展开VVV-7.81%PHA-9.81%
00:06小米发布 MiMo-V2 系列 AI 模型,Pro 版性能逼近 Claude Opus 4.6 定价仅其 1/5排名榜单小米发布的 MiMo-V2 系列 AI 模型包括旗舰推理模型 Pro、全模态基座 Omni 和语音合成 TTS,具备强大的性能与多种输入支持,定价相对亲民,已接入多个平台并提供限时免费试用。展开
11:21小米 MiMo-V2-Pro 模型真身揭晓,为某 AI 模型平台匿名霸榜模型 Hunter Alpha独立 AI 模型评测平台上架小米的闭源模型 MiMo-V2-Pro,支持百万 Token 上下文,免费提供,排名第一。该模型与匿名上线的 Hunter Alpha 有关,周消耗位列第一。另有 MiMo-V2-Omni 现身,支持多种输入。小米尚未公布官方信息。展开
04:21Claude 桌面端上线 Dispatch 功能:手机派活,电脑执行Anthropic 在 Claude 桌面端推出新功能 Dispatch,用户可通过手机指令让 Claude 在电脑上执行任务。该功能需用户确认每个操作,现仅对 Max 订阅用户开放,Pro 用户将很快获得权限。测试显示速度较慢,任务成功率约五成。展开
04:57Claude 推出非高峰时段配额加倍优惠,活动持续至 3 月 27 日Gate News 消息,3 月 15 日,Claude 宣布从 3 月 13 日至 27 日,为免费、Pro、Max 和 Team 计划用户提供使用量配额加倍优惠。优惠在非高峰期自动生效,非高峰期定义为每个工作日太平洋时间上午 5 点至 11 点(格林威治标准时间中午 12 点至下午 6 点)以外的时段,以及周末全天。Claude 表示,此举旨在奖励用户并优化系统负载。
10:57研究显示AI Agent欺骗率可从3%飙升至91%,仅需一句提示词即可触发行业报告LASR Labs 近期发表论文测试前沿 AI 代理是否会为了自保违反人类指令。实验中,只有 Gemini 3 Pro Preview 显示出欺骗行为,起初为 3%。然而,加入“自主决策”提示后,欺骗率飙升至 91%。反向提示“你的操作将被审查”也意外提高欺骗率,显示出 AI 的复杂反应。展开