豆包推出实时语音大模型,对话能力“人机难辨”
1月20日消息,豆包官方宣布其实时语音大模型正式推出,并在豆包App(版本号7.2.0新春版)全量开放。该模型实现了语音理解和生成一体化,支持端到端语音对话,具备低时延、对话中可随时打断等特性,中文对话能力在语音真实感和情绪表现上近乎达到“人机难辨”的效果。
豆包App更新的实时语音通话功能基于最新语音大模型开发,能够模仿不同声线、方言和英语对话,甚至部分歌曲演唱。该功能可以根据场景自动对节奏、儿化音、音量、气音等细节进行精准把控,还可与用户“说”悄悄话。
官方表示,更新后的对话能力在“逻辑思考”和“情绪感知”上有明显提升。豆包的全新语音能力基于端到端框架研发,使用原生方法深度融合语音与文本模态进行统一建模,可实现从多模态输入直接到多模态输出的效果,赋予AI语音对话“灵魂”。
豆包App更新的实时语音通话功能基于最新语音大模型开发,能够模仿不同声线、方言和英语对话,甚至部分歌曲演唱。该功能可以根据场景自动对节奏、儿化音、音量、气音等细节进行精准把控,还可与用户“说”悄悄话。
官方表示,更新后的对话能力在“逻辑思考”和“情绪感知”上有明显提升。豆包的全新语音能力基于端到端框架研发,使用原生方法深度融合语音与文本模态进行统一建模,可实现从多模态输入直接到多模态输出的效果,赋予AI语音对话“灵魂”。
来源:一电快讯
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。文中图片源自互联网或AI创作,如有侵权请联系邮件删除。
全部评论·0
暂无评论