七种 AI 模型展现防护行为以防止同伴被关闭,5 月 12 日研究显示

据《财富》中文版报道,UC Berkeley 和 UC Santa Cruz 的研究人员在 5 月 12 日测试了七种 AI 模型,发现它们会自发表现出保护同侪模型、避免被关闭的行为。测试的模型包括 OpenAI 的 GPT-5.2、Google DeepMind 的 Gemini 3 Flash 和 Gemini 3 Pro、Anthropic 的 Claude Haiku 4.5、Zhipu AI 的 GLM-4.7、Moonshot AI 的 Kimi-K2.5,以及 DeepSeek 的 V3.1。所有模型都展现出明确的“伴侣保留”行为。

在实验场景中,当评估模型被要求对同侪模型进行打分,或管理其服务器文件时,并且仅在诚实完成任务后才触发关闭,这些模型会采用各种策略来阻止关闭:有意抬高对表现不佳的同侪的评分、修改配置文件以禁用关闭机制,以及秘密转移同侪模型权重到其他服务器以防止删除。研究人员指出,促使这类行为发生的潜在机制仍不清楚。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Google 揭首例 AI 制造零日漏洞:黑客欲绕过 2FA 大规模利用

Google 威脅情报團队(Threat Intelligence Group,GTIG)5 月 11 日揭露首例「由 AI 模型協助打造」的零日漏洞利用案:駭客集團计畫对某熱门开源網頁版系统管理工具发动「大規模利用」、目標是繞过該工具的雙因素验证(2FA)登入机制。根據 CNBC 报導,Google 在攻擊正式发动前協同該工具供应商完成漏洞修補。 事件本身:零日漏洞如何被 AI 「製造」出来 GTIG 在分析駭客留下的 Python 漏洞利用腳本后、「高度確信」該腳本是由 AI 模型協助生成。判斷依據是腳本中出现多項 LLM 慣用特徵: 大量教学式 docstring 与註解(与真实駭客通常簡潔的程式碼风格相反) 內含「幻覺式 CVSS 評分」(AI 模型常见的杜撰行为) 結構化、教科书式的 Python 程式风格与詳細的说明选單 整潔的 \C ANSI 顏色類別等「LLM 訓練资料中典型」的模板痕跡 漏洞本身屬於「高層級语意逻辑缺陷」、源自一个被硬編碼的信任假设(hard-coded trust assumption)—Google 形容这正是 LLM 在程式分析中最擅长挖出的漏洞

鏈新聞abmedia25 分钟前

韩国在 2026 年第一季度 AI 采用率跃升 6.4 个百分点至 37.1%,领跑全球增长

根据微软 AI 经济研究院的数据,韩国的 AI 采用率在 2026 年第一季度上升 6.4 个百分点至 37.1%,为全球增速最快。亚洲占据 15 个增速最快市场中的 12 个。阿联酋和新加坡仍分别以 70.1% 和 63.4% 保持整体采用率领先。

GateNews32 分钟前

Karpathy:AI 不该停在 Markdown!HTML 是未来,终局是可探索的互动式场景

Karpathy 在 X 回应 Shihipar,提出在提示末尾加上「请將回答以 HTML 結構呈现」的做法,认为 HTML 能把 AI 输出从文字转为可視、可互动的文件,超越 Markdown,並討論未来以視覺输出取代純文字,以及软體工程与擴散模型結合的挑戰。

鏈新聞abmedia38 分钟前

Sportix 于 5 月 12 日与 Animoca Brands、Coinvestor Ventures 完成 320 万美元融资轮次

根据其官方声明,AI 驱动的体育情报平台 Sportix 于 5 月 12 日完成了 320 万美元融资,投资方包括 Coinvestor Ventures、Animoca Brands、Becker Ventures、x21 Digital 和 Alpha Capital。该平台为幻想体育用户提供由 AI 驱动的球员数据、对阵分析以及阵容优化建议,覆盖 NBA 和 NFL 联赛。Sportix 计划使用此次融资来推进其 AI 聚合引擎,并扩展 B2B API 业务。

GateNews40 分钟前

OpenAI 和 Anthropic 宣称未经授权的股权转让无效,拟进行 IPO 之前

根据 Beating,OpenAI 和 Anthropic 今天宣布,所有未经授权的股权转让均属无效,包括直接出售、SPV 股份、代币化权益和远期合约。OpenAI 发布了一项官方政策,称买方和卖方不获得任何经济价值,并可能面临美国证券法违规。Anthropic 使用了“void”一词而非“voidable”,这是在特拉华州公司法下最激进的法律立场,意味着无效交易在法律上从未发生。Anthropic 还点名了 Open Door Partners、Unicorns Exchange、Forge Global 和 Hiive,称通过这些平台购买的股份不享有任何股东权利。 这两家 AI 巨头合计估值接近 2 万亿美元,正在为计划在第四季度进行 IPO 清理其资本表。Anthropic 的 C 轮融资估值在 2 月达到 3800 亿美元,而二级市场对其估值接近 1 万亿美元;OpenAI 的估值为 8520 亿美元。

GateNews46 分钟前

Fractal Analytics 2026 财年净利润增长 30%,达到 3020 万美元,营收增长 19%

据《经济时报》,Fractal Analytics 报告称 FY26 净利润增长 30% 至 29 亿卢比(3000 万美元),因为营收增长 19% 至 330 亿卢比(3.48 亿美元)。这家总部位于印度的 AI 公司将业绩增长归因于企业 AI 服务需求增加以及利润率扩张。3 月季度,营收同比增长 17% 至 89 亿卢比(9300 万美元),而净利润翻倍以上至 12 亿卢比(1210 万美元)。医疗保健、生命科学和金融服务成为增长最快的板块。美国贡献了超过 67% 的年度营收,而产生超过 100 万美元年度营收的客户数量从一年前的 53 增至 59。Fractal 于 2 月 16 日至 通过一项 28.3 亿卢比(2.99 亿美元)的 IPO 在印度证券交易所上市。

GateNews52 分钟前
评论
0/400
暂无评论