剑桥大学用AI算法“监听”手机打字，手机密码不复存在？-品玩

本文授权转载自：凹非寺（ID：QbitAI）丨作者：栗子安妮

触摸屏，也能出卖你的手机密码。

手机的内置麦克风，搭配AI算法，就能让输入的每一个字无处可逃。

你可能听不到，但手指每在屏幕上轻轻点一下，都会发出一个声波。离屏幕不到1厘米远的麦克风，轻轻松松就能记录下来。

剑桥大学的科学家们，开发了一只偷听触摸屏的AI。它能从细微的声音中，还原出人类输入的信息。

45名志愿者真人测试，数字、字母，都被AI“偷”了出来。

声波出卖你

四顾无人时悄咪咪在触摸屏上解个锁，怎么就被声波泄露了密码呢？

“听到你的触摸”，这是论文的名字 (完整版：Hearing your touch: A new acoustic side channel on smartphones) 。在这里，研究人员揭秘了“作案思路”，其实并不难理解。

即使是在触摸屏上轻悄悄地操作，手指的每一次轻微的敲击都会产生声波。当戳击屏幕不同位置时，声波信息也会有相应的变化。

没错，关键信息就隐藏在这些形状不同的声波里。而这些信息，恰巧可以被手机内置的麦克风捕捉到。

研究人员反手开发了一个手机恶意应用程序，当这个程序被植入手机时，能够调动内置麦克风，让其秘密开始工作，记录下触摸时的声波信息。

他们收集了声波形状与触摸位置的对应信息，训练出了一个AI模型，还原输入内容。

至此，作案流程已经基本成型：

恶意程序悄悄启动→悄悄捕捉输入密码时的声波→AI模型预测手指对应在屏幕的位置→还原输入的密码和信息。

AI伙同麦克风，分工明确，里应外合，井然有序地就将你的隐私偷走了。

现场验证

这套程序的效果如何？研究人员找来了45位志愿者，开始了一系列测试。

整套测试的机型选用了Google旗下的Nexus 5手机以及Nexus 9平板。前者为2013年首发，屏幕大小为4.95英寸，后者为2014年发布，屏幕为8.9英寸。两款设备均内置2个麦克风。

为了模拟真实世界的环境，研究人员没有选择安静的实验室，而是选取了3种日常环境，测试在不同噪音环境下整个系统的准确度：

公共休息室：周围是聊天的人类，偶尔会出现煮咖啡时发出的较大噪音。

阅览室：电脑键盘声与小声说话声混合的环境。

图书馆：几乎没有说话声，但电脑键盘声环绕四周。

研究人员在这三个环境中，让45名志愿者分别进行了4组实验。

第一组志愿者需要随机输入数字1-9，每个数字各输入10次，第二组需要输入200组四位数字的密码，第三组随机输入字母，第四组需要输入5个字母组成的单词，这些单词均来自聊天语料库NPS。

实验结果验证了这种攻击方法可行性。

在20次实验中，AI能准确还原150个四位数字密码中的91个，还原准确率为61%。

破解字母组成的暗号也不成问题。用27个单词密码测试时，只进行10次实验，模型在手机上破解了7个单词，在平板上成功还原出其中的19个。

就是这样，你毫无察觉，但密码不胫而走。

我有许多小mimi，都在声波里

其实不用慌，因为AI想拿到手机密码，也不止这一种方法。

去年9月，英国兰卡斯特大学发表的研究，用手机扬声器里的声呐，窃取密码，特别是图形密码。

声呐的原理是，计算声波从发出到返回之间的时差，来确定物体的位置，以及物体有没有移动。这项研究里，AI分析麦克风录下的回声，便可以追踪用户手指在智能手机屏幕上的移动轨迹了。

也是在你没有察觉的时候，一切就发生了。

当然，上面这些只是手机上的问题。

如今，从键盘到硬盘，哪一个听不到你的秘密？

(请注意，这是一句严肃的话，没有开车。)

就连家里的盆栽，可能也知道你说了什么。

所以，我们一个一个讲。

听一下键盘先

去年12月，就有个名叫Keytap的键盘窃听法术，简单有效，吸引了大片关注。

先用麦克风采集一下敲击各种按键的声波，比如每个键收集三次。

再搭个简单的预测模型，算出每个按键的平均波形：

把收集好的声波的峰值对齐，避免延时影响；再用相似度指标 (Similarity Metric) 精细地对齐波形；对齐之后，做个简单加权平均，就得到平均波形了。

最后，尽情敲键盘吧，只要和平均波形比对一下相似度，就能检测出是哪个按键了。

还有开源代码，大家可以直接玩耍。

硬盘偷听，麦克风也不用

这是密歇根大学和浙大学者脑洞的结晶。原原本本的机械硬盘，不加麦克风，不做任何硬件改动，就变成了窃听器，且音质不俗：

硬盘工作的时候，主轴高速运转带动盘片，上面的磁头会感应盘片上的磁场变化，通过改变磁场，来写入数据。

这个过程非常精细。只要受到外部的声波冲击，磁头就会发生偏移。硬盘的位置传感器，产生的电压信号里就会体现出这个偏移。

让AI去分析这细小的偏移，科学家们还原了人类说的话，又还原了高保真的音乐，Shazam的听歌识曲也能答对歌名。

毕竟，硬盘的采样率超过30,000赫兹，几乎是CD级的录音质量。

薯片，不只是清脆

优雅的声音，可能是吃薯片最大的快感。

但偷听人类说话，科学家们不是靠薯片碎裂发出的声波，而是在视觉上动了心思。

MIT、微软和Adobe组成的混合团队，用高速相机透过隔音玻璃，拍摄出薯片袋的振动，算法便能判断说话的人是男是女，甚至还原讲话的内容。

研究人员说，声音传播时触碰到周围的物体，会在振动中形成一股微妙的视觉信号，肉眼不会发觉，但高速相机（每秒2000~6000帧）捕捉得到。AI分析视觉信号，便能听出人类的谈话了。

而且，不止薯片袋，铝箔、水杯甚至植物盆栽，都可以用来偷听。这些物件在房间里出现，人类又丝毫不会觉得奇怪，真是得天独厚。

这项研究，中选了顶会SIGGRAPH 2014。

如此说来，或许世间万物，都知道你的秘密。

不过还好，这些方法还在研究阶段。

传送门

这篇论文的研究人员共有四位，分别为剑桥大学的Ilia Shumailov、Jeff Yan、Ross Anderson及三星美国研究院Laurent Simon。

论文Hearing your touch: A new acoustic side channel on smartphones地址：

https://arxiv.org/abs/1903.11137