微软发布三款 AI “看、听、说”模型，瞄准商用级 AI 企业工作流

鏈新聞abmedia

2026-04-02 17:35:09

在 3 月 18 日推出影像生成模型 MAI-Image-2 之後，Microsoft 在 4 月 2 日再次释出两款语音相关模型 MAI-Transcribe-1 与 MAI-Voice-1，短时间内连续补齐影像与语音能力，被视为其多模态 AI 战略的重要推进。这三款模型并非零散更新，而是从视觉生成、语音理解到语音输出的完整拼图，显示微软正试图建立一套可直接嵌入企业工作流程的 AI 基础能力。

微軟 MAI-Image-2 瞄準商用影像生成

3 月 18 日微软首先推出的 MAI-Image-2，明显将重心放在「可商用」而非单纯创意生成。相较于早期偏向娱乐或实验性质的图像模型，MAI-Image-2 更强调输出稳定性与语意准确度，能在复杂指令下维持构图一致与细节完整。这使其更适合用于品牌行销素材、产品视觉与广告设计等场景。

对企业而言，这类模型的价值不在于能否生成惊艳图像，而在于是否能持续产出「可用且可控」的内容，而这正是 MAI-Image-2 强化的核心。

Clipto 挫勒但！微軟推會議逐字稿模型 MAI-Transcribe-1

紧接着在 4 月 2 日推出的 MAI-Transcribe-1，聚焦语音理解能力。这款模型的定位相当清晰，是将语音转换为结构化文字资料的基础层技术。它能处理即时语音输入，并在多语言与不同口音情境下维持高辨识准确度，同时对背景噪音具备一定抗干扰能力。

这类能力对企业场景尤其关键，无论是会议逐字稿、客服通话记录，或媒体内容整理，都仰赖稳定的语音转文字品质。一旦语音资料能被准确转换为文字，后续的搜索、摘要与分析流程便能全面自动化，这也是 MAI-Transcribe-1 在整体 AI 架构中的关键角色。

用 MAI-Voice-1 模型做客服、Podcast 语音

与之对应的 MAI-Voice-1，则负责语音输出端。该模型的重点在于让 AI 生成的语音更接近真人表现，包括语调、节奏与情绪的自然度。这使其能应用于客服语音、AI 助理、影音配音甚至 podcast 制作等场景。与过去较为机械式的语音合成相比，MAI-Voice-1 更强调可调节的语气与风格，使语音不再只是资讯传递工具，而是具备沟通与表达能力的介面。

微軟「看、聽、說」三款 AI 模型总整理

若将三者放在同一脉络观察，可以发现微软的布局并非单点突破，而是朝向多模态整合快速推进。MAI-Image-2 处理视觉生成，MAI-Transcribe-1 负责语音理解，而 MAI-Voice-1 则完成语音生成，三者共同构成「看、听、说」的基本能力结构。

这样的能力一旦与既有的语言模型与云端服务结合，便能形成完整的 AI 工作流程，从资料输入、理解、生成到输出，全部在同一体系内完成。

特性

MAI-Transcribe-1

(语音转文字)

MAI-Voice-1 (文字转语音) MAI-Image-2 (文字生成图像) 主要功能

将语音转换为逐字稿

生成自然流畅且具情感的语音

根据文字描述生成图像

发布日期

2026 年 4 月 2 日

2026 年 3 月 18 日

关键技术与特性

高抗噪性、自动语言辨识

情感控制、声音复制 (Voice Prompting)

扩散模型架构 (Diffusion-based) 、拟真度高

支援语言

英文、中文、西班牙文等 25 种语言

目前仅限英文 (即将扩充至 10+ 种)

以文字输入为主 (未特别标注多国语系支援)

定价方式

每小时音讯 $0.36 美元

每百万字 $22.00 美元

视部署平台而定 (如 MAI Playground)

输入/输出限制

输入：WAV, MP3, FLAC

输入：纯文字或 SSML

输出：最大 1024×1024 像素

这篇文章微软发布三款 AI「看、听、说」模型，瞄准商用级 AI 企业工作流最早出现在链新闻 ABMedia。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论