商汤:我们不是没商业化,就是没怎么说……
今年5月,美拍App的一个美少女战士变身滤镜,引爆了新一轮视频App的AR热。
早在几年前,这种在摄像头上叠加AR的特效就已经进入了终端用户的视野,但那个时候特效还比较初级。
进入到今年,大家明显感觉到这种特效有了飞跃性的提升,除了能在眼部、鼻子和嘴巴等明显的面部特征上做文章之外。对唇部的追踪、耳朵的识别、鼻翼两侧和眉毛的识别也让这种动画变得更加好玩。
在今年新上架的一些的AR滤镜里,除了准确的为用户改换了发型和衣服之外,还将用户以外的背景屏蔽掉,替换成了萌萌的变身背景——在朋友圈和微博上着实火了一圈。
当我问及商汤科技“目前国内有哪些视频App的AR滤镜是与你们合作”的时候,商汤的回答是:大多数头部的,比如FaceU,Snow,Line,微博,今日头条。你在里面用到的那种AR特效,都是用的我们的SenseAR技术。
SenseAR是商汤基于动态人脸识别技术开发出的一套解决方案,通过普通的手机、PC摄像头,就可以实现对脸部、手势和前背景的即时跟踪和特效。
比起一个研究院,商汤现在更像一个“人工智能超市”
“你出了五道口地铁站,我们的AI就看到你了”
昨天,在搜狐自媒体平台的组织下,PingWest品玩参加了商汤科技的一次媒体开放日活动,集体围观了这家刚刚完成了B轮4.1亿美元融资的人工智能公司在北京的总部。
商汤科技诞生于香港科学园,落地于深圳,北京的办公室位于清华科技园,紧挨搜狐媒体大厦。还没进入到商汤的办公室,黑科技就已经拍在脸上。
商汤的正门是不需要刷卡的,但每一个员工在经过大门的时候,自己的头像和名字都会出现在门口的玻璃幕上。前台人员可以很方便的看到进门的人是员工还是访客。
在门内,还有一个考勤信息系统,可以随时显示员工的出勤状况。哪位同事现在不在公司,可以说是一目了然了。
进到公司内部之后,直接就是一大堆炫酷的展示,而且其中的大部分你都应该熟悉:
比如这个自动把照片变成油画和二次元风格的技术,和OPPO、小米都有过合作;
比如这个能跟着你动的皮影小人(用的是普通摄像头,不是微软Kinect),你应该在许多旅游景点见过;
再比如这个测颜值(然后给你推广告)的机器,你应该在海底捞和各种网红店见过;
以及这个据说汇聚了全网视频、直播平台AR特效(因为都是他们做的)的展示机,能让你一次体验到现在的手机摄像头玩AR花样能有多好玩——因为那些特效都是和商汤合作做的。
当然,还有一些大家没见过的,比如这个视频结构化系统,可以分析出路面上每天有多少人、多少男男女女、多少日本车美国车、甚至是今年的流行色系:
“大家可以看到,这个屏幕其实是实时监控的,我们这里有个摄像头。”
小姐姐指了指屏幕左上角一个对着窗外的摄像头。
“我们这里距离五道口地铁站其实也有500多米吧,这个画面其实是非常不清晰的,但是你看画面中一些大的结构化信息还是能够比较精准的进行识别。”
看到几位“媒体老师”脸色不太好看,小姐姐又赶忙解释说这个视频信息他们是不保存的,只用作一次性的展示,而且也不会识别到具体的某一个个体。
除此之外,还有一些更为深度的应用,比如通过一张卫星图片,24小时更新全北京的路网;通过一段视频,自动标记公路上的路面伤情;这个商圈人流分析系统,能看到每个顾客先逛了啥,后逛了啥,还能分析出顾客在买什么东西的时候最纠结……
比起“wow,这个技术好牛x啊”,大家的感叹更多的是“wow,原来图像、视频识别,深度学习和人脸识别,还能干这个事儿?”
这似乎与之前外界的印象有些不一样。
人工智能商业化,其实是一个重新定义问题的过程
在商汤北京办公室里展示的每一项Demo,都是已经商业化,并有客户在使用的实际场景。
这与商汤科技此前给人的“独立研究院”“不够商业化”甚至是“方案卖不出去”的刻板印象有比较大的反差。
在商汤科技CEO徐立看来,已经跨入工业界的人工智能技术人,最重要的任务已经不再是“提升技术”,而是“定义问题”。
在学术界做研究,很多时候是不需要定义问题的,因为学术命题在很长时间里是固定的:
要识别一个人脸,开始研究,出了雏形之后不断刷新准确率。刷到一定程度之后刷不动了,再提出一个新的问题,能不能识别动态的人脸。新问题出现之后把成绩打回去重新刷。
但在应用领域,企业、市场、用户和政府提出的问题是复合型的问题,比如:公安机关提出的一个需求是用人脸识别来抓逃,其实满足这个需求所需要的关键技术不是人脸识别。
大多数人可能会觉得是一个非常清晰——不就是把支付宝、微信人脸解锁的那一套用在监控摄像头上吗?但其实不是,这个需求非常模糊:嫌疑犯的现成画像有没有、摄像头够不够清晰、嫌犯有没有化妆、网络基础设施能不能承载大规模的数据传输等等……
在多年以前,某市为了抓捕一个特大案件的逃犯,甚至一度导致本地移动硬盘卖脱销——因为全市的摄像头24小时的监控视频文件都要靠人力的方式拷出来汇总到专案组,然后在由专案组成员肉眼识别。
为了能替代这一过程,“人脸识别”一个技术显然是不够的——因为监控摄像头拍摄的距离和拍摄的像素远没有达到人脸识别的要求。
先按嫌犯的生理特征进行筛选,比如年龄、性别、身高、体重等进行广域的筛查。然后再对嫌犯可能的行动轨迹进行追踪,找到符合嫌犯此前行动的一些个体,再对这个小范围的人群进行追踪式的监控,不仅能够解放人力,还能减少对算力的需求。
这个将具体应用问题拆解成多个技术问题的过程是“重新定义问题”,在重新定义问题之后再重组技术解决方案是商业化的另一个关键。
同样是在监控摄像头上做功夫,与“抓逃”这个最终落实到个体的需求不同,预防可能存在的公共安全问题则是另一套完全不同的逻辑——自2014年上海外滩跨年踩踏事件之后,所有大型活动的组织者其实一直在寻找一种解决大人流量场所安全问题的方法。
在商汤的SenseVideo视频结构化系统中,还可对人流量进行监控、预测和预警:比如在密度很高且速度均一的人流中,突然有人停了下来,就有可能导致踩踏事件,这时系统就会自动报警,辅助活动组织者进行人流疏导。
当这些企业找到商汤,或商汤找到这些需求者时,问题都不是一个“我需要一个人脸识别”,而是“我想要解决安全问题”、“我想提高App的日活”、“我想做个转化高”的广告。
重新将这些应用问题定义为可以解决的技术问题,是商汤过去一直努力的方向。
商汤在这一轮的融资结束之后,会加速对AI基础设施的建设——在研究如何将应用问题转化为技术问题的过程中,以往的模式要求AI公司“自己建轮子”,这是对人力、财力、算力的极大浪费。
就像几十年前,要开个网站要自己买服务器、送到机房、搭建复杂环境一样。
当人工智能可以像是现在买云服务器一样一键搭配、模块化调用的时候,从应用问题到技术问题的转化,在从技术方案回到实际应用的这个链条将大大加快。
那个时候,AI才会像现在的App一样真正的遍地开花。
0 条评论
请「登录」后评论