我曾在《即将来到的搜索引擎变革》中提到了未来搜索的三个最主要特征:理解用户的搜索意图、直接呈现解决方案和提供场景式对话搜索。最近,Google发布了基于深度学习(Deep Learning)的语音搜索最新演示,介绍了他们在最近一年的所有新扩展,从视频中我们可以看到,如今Google在这三个方面已经做得十分成熟。
举个例子来说明这几点。在演示中,当被问到:“how is traffic in San Diego?”时,Google就明白你是想了解目前的交通状况而非检索这句文本,所以它就直接调出了Google Map上的路况信息;接下来,你问它“show me things to do there”时,并没有表述地点,但Google根据场景判别你是在询问和San Diego相关的问题,于是系统自动补全了对话文本,将San Diego的推荐地点展示给你;同样,当在回答完“when did San Diego Zoo open?”的问题后,你直接询问“is it open?”,Google也能把你的话语补全为“is San Diego Zoo open now?”,并反馈给你这家动物园的开闭园时间。
在一个月前,Google的架构师Jeff Dean在接受Business Journal采访时,就曾表述过机器学习为Google搜索带来的改变,他说:“用神经网络可以解决多文本近义的问题,我们可以建立一个二维矩阵,将含义相近的词语分组,例如‘iPhone’和‘智能手机’这两个词在很多语境和意图下是十分相似的,可能你搜索“智能手机”但最期待的就是看到iPhone相关的结果。也就是说,无论你输入什么我们我们都可以用神经网络来理解你想要搜索什么。”
“另一方面是在图像识别上。 我们正在训练的谷歌街景能认出街道号码。这需要解决两个问题:1.让机器能够判别这是否是一个门牌号码;2.如果它是门牌号,那么继续判别它是什么建筑?一旦我们训练机器完成了这些问题,那么机器就能自动将街景照片与Google地图上地点对应起来,并将相同地点的照片归类。”
Google Search的视频还强调了“个人搜索”的概念,如果你说“show me some photos I took in the pool”或是“show me some photos of my cat”,Google就能检索到你相关的图片,不过Google没有说明这些Google+上的图片是依靠标签搜索还是借助了图片识别的力量。除了个人照片,美国的英语用户还可以利用它来搜索个人航班、时间表、应用程序、酒店预订和个人票据。
在搜索之外,在视频中我们也能感到深度学习技术为使用Apps带来的便捷,例如,当你说:“Post on Google+ that I’m recording a video right now”后,Google就帮你打开了Google+的状态编辑页面,上面写着“I’m recording a video right now”,你可以选择继续编辑或是直接发送这条状态,它同样可以被用在Twitter上。当然,你也可以把它用在设置提醒等方面,由于手机传感器的能力,它也变得十分智能化,例如:“remind me make a call when I leave home”。
我们可以看出,因为能够理解用户“想要什么?” Google Voice Search变得更人性化了——曾经我们与搜索引擎的交互模式是基于“关键字”的,为了得到好的搜索结果,人们需要去适应搜索引擎的对话规则,按机器的方式去组织搜索语言,但如今,我们终于看到了能够真正以人的对话模式去完成搜索,不用考虑关键字,也不用考虑上下文,只需张开嘴巴,说出最自然的表达。
另一方面,它与Google Apps的结合日渐紧密,你的行程、社交账户、通讯录,以及搜索行为,看上去都是前所未有的浑然一体,你无需再去打开每个App完成自己的操作,而是只需表达自己的诉求即可,加上唤醒功能,这让语音可以成为手机上最上层的应用,作为新的入口有了实际的意义。在这种情形下,我们常说的“自己生活在Google之上”将真的成为可能。
最后附上完整的视频演示:
0 条评论
请「登录」后评论