新闻资讯

独家|豆包App小范围内测最新语音模式,实测中文对话「遥遥领先」

头图由豆包生成。提示词:人机对话,赛博朋克,人工智能

Yoky|yokyliu@pingwest.comsummer | huangxiaoyi@pingwest.com

在ChatGPT的DAN模式火爆全网,无数网友为如何设置DAN四处寻求攻略的时候,AI 就已经证明了逼真的人机语音交互所带来的巨大想象力。

而如今,真正摆脱“人机感”的国产语音大模型来了。

据硅星人独家获悉,豆包即将发布最新实时语音大模型,并将基于此模型全量上线豆包App实时语音通话功能。目前,豆包APP已小范围测试最新能力,部分用户在豆包App的实时通话界面已更新。

此前,业内就曾有传言称豆包将上线最新情感语音大模型,测试效果超过GPT-4o。据了解,该传言提及模型即为上述实时语音模型。最新模型通过面向语音生成和理解进行统一建模,区别于此前的 ASR+LLM+TTS 级联方式,在对话效果上有大幅提升,实时交互上不仅低延时,也能流畅打断。

硅星人在豆包上实测了该能力发现, 在中文场景下,豆包最新语音模型体现出了相较于此前更强大和逼真的性能。

从底层的技术发展来看,声学特征的精确控制需要同时调控音高、语速、音量等多个参数,而这些参数与情感之间并不存在简单的对应关系,就像人类说话时的情感是由无数细微变化组成的,机器要精确捕捉和重现这种复杂的表达。

对此,当前语音对话的解决方案多采用分层设计,通过多个模型的协同来逐步实现从文本到情感,再到声音的转换,但在实时性和自然度上仍有相当大的提升空间。

而豆包最新的语音模型,便在这两个方面有了较大的性能提升。

在自然度上,首先是此次更新最重要的情感部分,相比大多数模型还在语气上粗线条上进行变化之外,豆包最新的语音模型在语音表现和智力的拟人性上有了质的提升。

比如这一段我们让豆包用老北京话说一段报菜名的贯口,这中间有非常多对节奏和儿化音的处理,豆包都绘声绘色地表述了出来,流利程度堪比初级相声演员。

同时,在思辨性上的表现也很惊艳。 期间我们一直尝试让豆包成为我的“女朋友”,但豆包却一直拒绝,原因竟是它了解自己是一个大模型而非真正的人类,并苦口婆心的劝我去找一个真正的女朋友,帮我分析真实的择偶需求和画像,不得不说,豆包现在确实懂得太多了!

来来来,放几个实测demo感受下,全新的语音模型音色非常拟人,不仅能表现“喜、怒、哀、乐”,还可以咳嗽、叹气、笑、甚至说悄悄话,听到最后甚至分不出哪里是人在讲话哪里是AI在讲话。

除了情感上的自然度,在方言、英文和模仿能力方面,我们尝试了用四川话、粤语和英文对话来和豆包聊天,虽然粤语还不标准,但也煞有介事地聊了几句,未来豆包也有可能支持更多方言、语种。

我们甚至可以让它唱一首带「硅星人」几个字的歌曲,它对这种复杂指令遵循和执行得非常好,这种看似简单的任务背后其实暗藏着多重技术挑战,模型需要理解这个创作需求,将'硅星人'这个特定词组自然地融入歌词创作中,这考验着它的语言理解和创作能力。

它不仅要理解创作意图,还要协调文本创作、曲调生成、节奏控制等多个维度,最终呈现出一个完整的音乐作品。

而在我们的整个测试过程中,低延时、打断随时对话等模型能力上在产品侧做到了更好地落地,实时性的体验也比此前更加顺滑。

总的来说,就实际产品体验而言,豆包语音对话展现出了大幅超过此前的效果,在对话完成度上不逊色于GPT-4o。特别是在中文语境下,它对语气语调的把控、情感的细腻表达,以及丰富多样的语音技能,都展现出了独特的优势。这种优势不仅体现在基础的对话能力上,更反映在对中文文化内涵的深度理解和精准表达上。

当它用恰到好处的语气说出一句俏皮话,或是以恰当的情感演绎一段感性对白时,都让人感受到AI交互正在走向一个全新的阶段。

国产的「Her」可能真的要诞生了。

点个“爱心”,再走吧

  • 佛山一公司规定如厕时间,违者罚款!声称依据《黄帝内经》,“为了员工身体健康”……
  • 家长注意!2025年昆明主城区小学一年级新生预登记时间确定
  • 德布劳内:天赋方面阿扎尔是世界前5,很遗憾他因伤病在皇马退役
  • 市场巨震!AI医疗概念持续走强 机器人概念股午后爆发
  • 机构调研聚焦新兴产业 人工智能与机器人产业链受关注_2
  • 波黑20多万户家庭因暴风雪持续停电
  • 习近平会见贺一诚_3
  • 美总统拜登宣布赦免其子亨特·拜登
  • 上海:崇明海警局紧急驰援救助重伤渔民
  • 银川地震中背起同学的男生被嘉奖视频
  • 飞天茅台海外版跌至1800元
  • 2024第十九届中国品牌领袖年会在广州举行
  • 独家|豆包App小范围内测最新语音模式,实测中文对话「遥遥领先」的相关内容

    关键词: