标签: 语音合成

3 个内容

笔记(1)

SSML：语音合成的精细控制之道

本文深入解析了语音合成标记语言 SSML。SSML 是一种 XML 标记语言，用于精细控制 TTS 引擎的合成过程。文章阐述了 SSML 的基础元素、底层机制、工业应用及前沿趋势，并探讨了其在智能客服、多语言播报等场景中的应用，最后给出了开发建议和资源推荐。

语音合成技术 SSML TTS XML标记语言智能客服神经语音合成韵律控制

非凡少年·2025/03/25

514 浏览

动态(2)

非

非凡少年

2026-03-18 10:25

公开

维度	传统 NLP 辅助 TTS	大模型 (LLM) 驱动 TTS
核心逻辑	基于规则或小型模型预测发音	基于概率预测语音 Token
情感表现	刻板、预设的情感模板	自然、随文意变化的细腻情感
上下文感知	仅限于句子内部	能跨段落感知语境和角色性格
处理复杂文本	容易在多音字上出错	容错率极高，能模仿口语碎碎念

#技术 #人工智能 #大语言模型 #TTS #语音合成 #自然语言处理 #多模态 #生成式AI

浏览:238点赞:0

非

非凡少年

2025-11-12 20:26

公开

📱 Google Drive 新增 AI 音频摘要功能，可将 PDF 转换为播客风格音频

Google 宣布为 Google Workspace 用户推出新的 AI 功能，可将"冗长、文本密集的 PDF"转换为"对话式、播客风格的音频摘要"。该功能采用与 NotebookLM 中广受欢迎的 Audio Overview 相同的底层技术。

用户在 Google Drive 中打开 PDF 时，顶部会出现 Audio Overviews 按钮，点击后可创建音频摘要。生成的音频文件会自动保存到 Drive 的"Audio overviews"文件夹中，用户可在手机或桌面设备上随时收听。目前该功能每天限制生成 20 个摘要，仅支持英文 PDF，已对所有 Google Workspace 用户默认启用。

Android Police

🍀在花频道 🍵茶馆 📮投稿新鲜事

#科技 #人工智能 #PDF处理 #语音合成 #NotebookLM #办公效率 #AI摘要

浏览:156点赞:0