<关闭侧栏

| 当前位置: | 主页 > 在家做客服有哪些工作 >

让智能音箱连续对话百度工程师都做了些什么?

来源:未知 作者:admin 时间:2018-11-30 21:04 文字大小: 【大】 【中】 【小】 点击:
核心提示:可当你忍不住剁手后,体验了一两天的尝鲜感,十有八九会把它扔在角落里吃灰。 每次对话都要喊一下唤醒词,感觉好不别扭,邻居家还可能以为你养了条叫XX的狗;指令说道一半就会被打断,莫名其妙的回了句对不起,请再说一遍;上一句还在问今天天气怎么样,下一

  可当你忍不住剁手后,体验了一两天的尝鲜感,十有八九会把它扔在角落里吃灰。

  每次对话都要喊一下唤醒词,感觉好不别扭,邻居家还可能以为你养了条叫“XX”的狗;指令说道一半就会被打断,莫名其妙的回了句“对不起,请再说一遍”;上一句还在问今天天气怎么样,下一句问今天穿什么衣服,给到的是和天气毫无关系的答案……

  不只是你觉得这种体验很不爽,百度的工程师们也忍受不了这种“人工智障”,在今年的百度世界大会上,百度语音技术部总监高亮就聊了聊语音技术是如何让智能音响变聪明的。

  钢铁侠和自己的AI管家贾维斯对话时,如果每次交互都要重新唤醒,不管是什么人都能发号施令,环境太吵的时候就听不清,钢铁侠不知道会被打趴下多少次。

  在百度世界,高亮说“远场语音的技术发展特别快,百度的唤醒、远场识别以及基于高频Query解决的语音语义一体化等技术,可以解决基础体验问题,让音箱唤得醒,听得清。”但是,解决基础体验还不够,如果和智能音箱交互,你就会发现,“听懂”才是最难的。

  在高亮现场的演示里,搭载了百度远场语音技术方案的智能音箱只需唤醒一次就可以连续多轮对话,能够准确识别用户说话时的犹豫停顿、能够区分并跟随首次唤醒的人,与此同时,回应还相当灵敏,与小度的问答越来越像一场“交谈”而不仅仅是一次“交互”。从“交互”到“交谈”,这就是百度工程师们正在做的事情。

  当下的人工智能远没有科幻电影中成熟,普遍认为还只有五六岁小孩的智商,可你和五六岁小孩沟通时也会这么费劲吗?就如高亮所言“每一个技术问题都会面临一个技术解决的方法”,或许普通用户只能吐槽抱怨一下,但百度的一群工程师们却默默定了个小目标,不是先挣一个亿,而是:

  1、一次唤醒可以连续交互;只需要唤醒一次,就可以进行连续对话,不管智能音箱处于什么样的工作状态,哪怕正在播放音乐。就像人与人之间的对话那样有问有答,不再是每次对话都要说出唤醒词,真正的语音交互不应该是刻板的。

  2、说话停顿不会打断;当你说“给我放一首周杰伦的…呃…菊花台”,智能音箱不是着急随便放了一首周杰伦的歌,而是播放菊花台。智能音箱要明白你什么时候说完了,什么时候没说完,不会把你没说完的话切断,毕竟谁还没有犹豫的时候呢。

  3、知道说话人是谁;一个典型的三口之家,有爸爸、妈妈、孩子,每个人的需求是不一样的。智能音箱要精准识别出每一个人的声音,知道问题是谁问的,然后给出准确的答案。

  4、上下文对话连贯;智能音箱在回答你现在的问题时,也要知道上一个问题是什么,要学会结合上下文,不能答非所问。只有这样人和智能音箱的对话才会更自然,我们想要的不是没有情感的机器,至少对线、听清听懂不傻冒泡;

  现在语音交互用到的技术主要是麦克风阵列、语音识别、语义理解、语音转文字、文字转语音等等,都是人工智能技术最基本的应用,几乎一个十几人的创业团队就能完成。但百度工程师们的小目标,却需要一连串的技术攻坚。

  想要智能音箱可以连续对话、应答如流,最简单的办法就是“人工”智能,比如2015年横空出世的某客服机器人,凭借软萌的声音、流畅的反应、高度人性化的对答,几乎可以和钢铁侠的贾维斯媲美,最后却被扒出是“摄像头+变声器+人工客服”。

  因为我们说话不会永远都是连续不卡壳的,比如我想听一首薛之谦的歌,我可能会说“小度小度,给我播首薛之谦的……”思考1-2秒,然后说“认线秒间,就可能让智能音箱以为你说完了,从而接收指令给你播起了薛之谦的所有歌曲,甚至停止响应。

  当你对智能音箱说话的时候,音箱会立刻感知到,然后持续不断向云端发送语音数据,进行语义分析,监测你说的话是不是完整,然后智能音箱就能判断你的话是否说完了。苹果扎金花游戏刷金币,上传的语音数据只有几十K大小,整个过程不到一秒钟就能完成。不会出现诸如音箱在放着音乐,你说了一句“暂停”,音箱两三秒才响应,这个时候你可能会觉得音箱没有听见(尤其是音箱播放音量比较大的时候),然后再补一句“暂停”的情况。

  于是百度的工程师们,根据自然界声音标定的声学置信度,对百万人量级的声纹进行学习建模,并推出了面向智能音箱连续交互场景的语义置信度技术,也是业界首创自动区分语音中不同说话人身份的商用系统。会对唤醒人的声纹进行注册、跟踪、拒识,和唤醒人方向不一样的声音会被拒绝掉,声纹不同的声音会被拒绝掉,和智能音箱场景不匹配的声音也会拒绝掉。

  百度的工程师们先做了语音语义一体化技术,把声学、声纹、语义置信度和从DuerOS获得到的垂类信息资源融合起来,在深度神经网络的多信息融合技术、高频图和通用图并行解码决策的基础上,对对话的上下文进行跟踪管理:判断了说话对象后,可以知道之前交互的内容,知道对象的角色、喜好,然后综合所有这些信息作出精准决策,这样就解决了上下文关联的问题。

  一次唤醒多轮对话的能力依赖于多项声纹、语音、语义技术的进步,包括创新的尾点检测技术,其利用云端信号AD技术一边做语音识别一边发给语义VAD,将声学技术与语义技术结合在一起,能够适应用户说话速度,知道用户什么时候说完了,不在中间打断。

  现场,高亮也用一款音箱向大家展示了百度远场语音技术方案——通过一连串流利的交互,在大会会场高噪音的环境下,说线米,音箱的唤醒和识别表现很好。并且一次唤醒就能多次对话,智能音箱在说话时,也能聆听用户的新命令并且快速执行。从更多的演示deme和视频来看,维纳斯智能音箱也能实现一定的上下文理解。

  王海峰曾在中国图灵大会上展示过百度的智能语音搜索:当用户直接对着手机询问“天气热吗”,她会回答当地的天气是热还是凉爽,气温如何等情况;当用户接着问“上海呢”,她能够基于上下文理解技术自动补全用户的问题是上海的天气,从而给出准确的回答。此外在王海峰在百度AI开发者大会上的那段“花式 RAP”,百度AI也完全不懵逼,妥妥应答如流。

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

图文资讯

让智能音箱连续对话百度工程师都做了些什么?
让智能音箱连续对话

  可当你忍不住剁手后,体验了一两天的尝鲜感,十有八九会把它扔在……

[详细]
5小时做1个宝贝4年卖到4皇冠曾经一个人的淘宝店做了什么?
5小时做1个宝贝4年

  摘要:短短四年,王的手创从一个人的淘宝店,扩张到了如今20多名……

[详细]
饱满胸肌只需4个动作在家就能做坚持30天见效
饱满胸肌只需4个动

  各位健身的小伙伴们大家好,今天呢,我们要为大家简介几个关于胸……

[详细]
P2P乱象调查:2000元开家5000万注册资金公司
P2P乱象调查:2000

  P2P借贷行业发展之快,令人目不暇接,如今监管政策终于来了。7月……

[详细]
座席代表不够吗?“在家办公”也是雇用对策之一
座席代表不够吗?“

  随着装备CTI(Computer Telephony Integration)的客服中心不断……

[详细]
残疾人当淘宝客服养活自己
残疾人当淘宝客服养

  小希是儋州那大的25岁女孩何六妹,重度残疾的她是一名普通的淘宝……

[详细]