微软发布三款 AI “看、听、说”模型,瞄准商用级 AI 企业工作流

鏈新聞abmedia

在 3 月 18 日推出影像生成模型 MAI-Image-2 之後,Microsoft 在 4 月 2 日再次释出两款语音相关模型 MAI-Transcribe-1 与 MAI-Voice-1,短时间内连续补齐影像与语音能力,被视为其多模态 AI 战略的重要推进。这三款模型并非零散更新,而是从视觉生成、语音理解到语音输出的完整拼图,显示微软正试图建立一套可直接嵌入企业工作流程的 AI 基础能力。

微軟 MAI-Image-2 瞄準商用影像生成

3 月 18 日微软首先推出的 MAI-Image-2,明显将重心放在「可商用」而非单纯创意生成。相较于早期偏向娱乐或实验性质的图像模型,MAI-Image-2 更强调输出稳定性与语意准确度,能在复杂指令下维持构图一致与细节完整。这使其更适合用于品牌行销素材、产品视觉与广告设计等场景。

对企业而言,这类模型的价值不在于能否生成惊艳图像,而在于是否能持续产出「可用且可控」的内容,而这正是 MAI-Image-2 强化的核心。

Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1

紧接着在 4 月 2 日推出的 MAI-Transcribe-1,聚焦语音理解能力。这款模型的定位相当清晰,是将语音转换为结构化文字资料的基础层技术。它能处理即时语音输入,并在多语言与不同口音情境下维持高辨识准确度,同时对背景噪音具备一定抗干扰能力。

这类能力对企业场景尤其关键,无论是会议逐字稿、客服通话记录,或媒体内容整理,都仰赖稳定的语音转文字品质。一旦语音资料能被准确转换为文字,后续的搜索、摘要与分析流程便能全面自动化,这也是 MAI-Transcribe-1 在整体 AI 架构中的关键角色。

用 MAI-Voice-1 模型做客服、Podcast 语音

与之对应的 MAI-Voice-1,则负责语音输出端。该模型的重点在于让 AI 生成的语音更接近真人表现,包括语调、节奏与情绪的自然度。这使其能应用于客服语音、AI 助理、影音配音甚至 podcast 制作等场景。与过去较为机械式的语音合成相比,MAI-Voice-1 更强调可调节的语气与风格,使语音不再只是资讯传递工具,而是具备沟通与表达能力的介面。

微軟「看、聽、說」三款 AI 模型总整理

若将三者放在同一脉络观察,可以发现微软的布局并非单点突破,而是朝向多模态整合快速推进。MAI-Image-2 处理视觉生成,MAI-Transcribe-1 负责语音理解,而 MAI-Voice-1 则完成语音生成,三者共同构成「看、听、说」的基本能力结构。

这样的能力一旦与既有的语言模型与云端服务结合,便能形成完整的 AI 工作流程,从资料输入、理解、生成到输出,全部在同一体系内完成。

特性

MAI-Transcribe-1

(语音转文字)

MAI-Voice-1 (文字转语音) MAI-Image-2 (文字生成图像) 主要功能

将语音转换为逐字稿

生成自然流畅且具情感的语音

根据文字描述生成图像

发布日期

2026 年 4 月 2 日

2026 年 4 月 2 日

2026 年 3 月 18 日

关键技术与特性

高抗噪性 、自动语言辨识

情感控制 、声音复制 (Voice Prompting)

扩散模型架构 (Diffusion-based) 、拟真度高

支援语言

英文、中文、西班牙文等 25 种语言

目前仅限英文 (即将扩充至 10+ 种)

以文字输入为主 (未特别标注多国语系支援)

定价方式

每小时音讯 $0.36 美元

每百万字 $22.00 美元

视部署平台而定 (如 MAI Playground)

输入/输出限制

输入:WAV, MP3, FLAC

输入:纯文字或 SSML

输出:最大 1024×1024 像素

这篇文章 微软发布三款 AI「看、听、说」模型,瞄准商用级 AI 企业工作流 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论