智能音箱能改变一切吗？究竟是“提升效率”还是“没什么卵用”-品玩

腾讯董事会主席兼首席执行官马化腾在2017腾讯云+未来峰会上强调，云已经成为产业革新的源动力，而人工智能正是云交互的强载体。

在腾讯云+峰会的分论坛上，我们仔细听了两个人的演讲——数字家圆创始人兼CEO唐波和腾讯物联云语音云总经理毛华：腾讯云小微正式发布了，而数字家圆的第三代产品亲见H2宣布已拥有腾讯云小微的语音交互的能力，变成一个类似于亚马逊Echo Show的家庭智能语音助手。

在最近的一些第三方报告中，仅仅是在中国市场，语音交互硬件设备从今年开始已经有多达几十家的产品。

在新一波的创业浪潮之下，不同平台的优势又是什么？为什么这么多人创业做语音音箱，为什么很多消费者还说“这根本没什么卵用”，目前语音交互有没有矛盾？

我们和硬件方的数字家圆创始人兼CEO唐波以及技术平台方的腾讯物联云语音云总经理毛华聊了聊语音交互的那些事儿。

语音交互下的技术壁垒，和现在的智能终端不同，它需要开放的合作

一个横跨硬件和软件技术的产品，就需要多方紧密合作。

这也是为什么国外诸如Google、Apple、Amazon等巨头在技术和硬件方面都采用inhouse的方案，这点在智能手机生态方面也极其明显。不过唐波认为：语音交互时代的壁垒，和现在的智能终端已经不同，它需要开放的合作。

中国语音交互硬件的市场下，是不能闭门造车的。

有很多案例证明这一点。

几个月前，小鱼在家成为百度AI平台落地的第一个产品；京东叮咚也早就和科大讯飞合作；几天前，就连我们熟悉的喜马拉雅FM也从电台的角度切入了语音对话音箱产品。实际上，它们都是通过技术合作的方式。

唐波则提到，“家庭入口级的这种智能终端，它跟手机最大的不同就是，它是一个非常开放平台。终端有终端的话语权，比如它的预装，它有很强的话语权。应用市场有应用市场的话语权，APP也有它的话语权。手机的生态和今天我们新的这个生态完全不一样。这个生态要求，合作更紧密，大家的能力互补性更强。”

唐波认为，基于AI的智能音箱产品的链条其实很长，任何一家创业公司要把它从头做到尾，要做好的话需要很长时间，而现在整个市场正是快速发展的时候，所以更多的是大家优势互补，强强合作。

硬件厂商的核心能力是把硬件做好，把用户的核心需求做好，比如UI、分析用户的行为习惯等等，唐波认为这是硬件厂商该做的事情。而AI的能力，其实不单单是算法、还有平台以及大数据的问题。

腾讯云小微的杀手级应用——微信QQ？

“帮我定个闹钟、播放周杰伦的音乐、今天有什么大新闻？”

大部分的语音对话音箱、陪伴式机器人都能完成这样的需求，这也算是对话音箱的基本需求。而对于腾讯云小微语音助手，这些能力也全部集中在平台上——包括睡眠起床、闹钟、音乐、视频、新闻、音乐、历史上的今天，学英语等等能力。

不同的是在亲见H2这款产品上，它拥有屏幕，可以实现视频对话；甚至腾讯云小微还可以解锁腾讯的QQ、微信的好友关系，让你可以在使用腾讯云小微语音助手的硬件上（比如亲见H2）直接拨打微信（QQ）视频，发送语音消息等等，就像最新的Echo Show一样。

这让QQ和微信首次跳出了手机落地到用户的家里，或许真的可能成为这个语音助手的杀手级应用？

如果让腾讯物联云语音云总经理毛华总结，腾讯云小微开发平台的护城河就是——腾讯的版权、内容以及连接。

毛华提到，AI很强大，但后方的内容仍然是重点——腾讯音乐、腾讯视频拥有的众多版权，构成了内容的护城河；而连接则是QQ、微信。他强调，腾讯一直是一家强调连接的公司。

连接，侧面的理解就是开放，这也体现在腾讯云小微的开放平台上。

毛华告诉PingWest品玩（微信号：wepingwest），腾讯云小微是由三个部分组成：

第一，小微硬件开放平台，硬件合作方只需要一个SDK即可接入硬件，非常简单。毛华还拿出了一个苹果耳机盒大小的硬件说，“这其实就是一个具备小微能力的硬件，它的成本只有20块，连上音箱就拥有了全部的小微AI能力”；

第二，小微Skill开放平台，这里提到的就是腾讯旗下的版权——音乐、视频、有声读物、漫画等。当然三方开发者也可以通过API自建Skill，比如提交一个品玩的Skill，它就可以实现“播放品玩的科技新闻”；

第三，智能解决服务方案的平台，这里指的是B端那些智能回复机器人，它通过观察人工客服的回复来学习如何和顾客交流，最后实现完全替代。

腾讯云小微助手和艾拉物联的演示

唐波提到腾讯云小微下放到亲见H2的技能有30多个，未来一年可能就会达到300个，3000个。他还提到，做成Echo的模式要做成四个基本要素，第一个是要构成强悍的硬件能力，麦克风阵列的设计；第二个就是AI的能力，能不能识别语音、语义的理解；第三个是内容和服务的资源，AI很强大但后边没有东西不行；第四个是产品最后能不能形成规模。

语音交互的矛盾——深耕需求以及广泛的能力

我在用这种语音对话音箱产品的时候，其实自己总结出一个观点——那就是语音交互在很多时候提升了效率；但一些时候，其实他还没有我打开手机的效率更高。

这就需要谈到一个核心需求的问题。

很多语音交互音箱意图在形成用户的核心习惯：

比如HomePod其实更多的是一个音箱，连接上Apple Music解决听歌的核心需求还是有人会用的；亚马逊Echo则一开始导流了购物，它根据你的帐号知道你要什么；

对于中国的语音对话音箱制造厂商来说，它们都或许或少提到“养成用户的行为习惯”这个话题，大体上是再说，先让用户习惯每天去问它“我要听音乐”、“今天天气怎么样？”这些确实可以提高效率的需求。

我在用语音交互音箱的时候，大体上也都是这些操作。

虽然语音交互用上了深度学习，在自然语言处理的过程中，能够与人更自然的对话，更聪明的理解人的意图。

但并不代表它就万能了，你看，具体处理到“我要吃肉夹馍”这些问题的时候，就会衍生出一系列的复杂选项——从哪个平台定，是不是还要关联帐号？从哪个饭店定；哪家饭店更便宜？

遇到这种问题的时候，其实语音交互的效率远远不如你打开手机、滑出“美团外卖”、三两下就把饭订好了。

唐波认为，语音交互就应该被重新审视，并不是在任何时候都需要用上语音交互——语音交互说到底是为了提升效率，要亦繁亦简。其实这个问题亲见这款产品上能看得出来。

数字家圆发布亲见H1的时候，没有语音交互的能力，其实它就是打造一个家庭场景下的核心视频需求，比如外地的父母为了看姥姥姥爷带孩子。

而在新品上的考虑，唐波所提到的简，就是要将交互效率要提升到十倍以上——“比如传统打开qq音乐，你需要打开蓝牙、打开手机、播放音乐大概需要几十秒；而使用语音的话，可能就两秒。这是交互效率的提升，交互效率的提升之后，用户就更愿意用这个东西；繁，就是我们相信作为一个家庭互联网的入口的话，后面的内容和服务是要丰富的，用于满足家庭场景下的不同需求。”

毛华告诉PingWest品玩，并不是所有的需求适用在语音交互的领域。“你刚刚提到的订外卖、购物其实就面临了好多级的选择，如果不做需求简化就不合适做到语音交互里去。”

所以，“提升效率”和“没什么卵用”的区别就在这吧。