“全球约有 4.66 亿耳聋和听力障碍患者,这是非常巨大的一个数目,如果把这个数字当成是一个国家的人口的话,这个‘国家’就是世界人口第三大国了。”
远在美国的 Google AI Research Group 高级产品经理 Sagar Savla,通过远程视频参与了一次在中国举行的采访会议。采访中,他展示了上述让人意想不到的统计数字。
借助技术的力量,普通人得到了能力增强,能完成过去做不到的事情,比如 Sagar 可以借助实时视频串流跨洋交流。在科技公司做产品的 Sagar,想让听力障碍群体也能受惠于技术进步。
Live Transcribe 是什么?
Sagar 和他的团队已经迈出了第一步——Live Transcribe。Live Transcribe 是一个 Android 端的 App,能将自动生成字幕功能引入日常对话,帮助听力障碍人群融入即时口头交流。这款 App 已于 2019 年 2 月底发布,目前支持 70 多种语言并覆盖全球 80% 以上的人群。
如上所述,全球有 4.66 亿耳聋和听力障碍患者。过去,他们想要参与即兴对话和社交场合,得提前预订昂贵的手动转录服务,成本颇高,Live Transcribe 用技术来解决了这个问题。
Live Transcribe 基于 Google 过去几十年的自动语音识别(Automatic Speech Recognition,以下简称 ASR )技术积累,能把人类的语音信号转变为相应文本。YouTube 上的自动字幕生成,就是应用 ASR 技术的结果。
(安静环境下 Live Transcribe 实时字幕转录普通话测试)
2018 年,Sagar 利用 20% 的工作时间开启了 Live Transcribe 这个项目。“开始不久我们立刻意识到,这其实是一个非常切实的项目。因为在 Google 也有一些聋人员工,他们拿到这个产品后几乎无时无刻不在使用。启动一个月后,我们就把这个项目固定下来了,建立了相应的产品开发团队。”Sagar 对 PingWest 品玩回溯起项目的发展。
值得一提的是,美国国家级院士 Dmitri Krakovsky 也加入了 Live Transcribe 项目组,他天生就是聋人,已经研究 ASR 30多年。
Live Transcribe 是怎么运行的?
过去,基于 ASR 的转录系统一般都需要计算密集型模型、详尽的用户研究以及昂贵的连接服务费用。
为了降低用户使用自动连续转录服务的成本,Sagar 团队将 Live Transcribe 背后的神经网络模型分别部署在设备端和云端(Google Cloud)。
设备端的是卷积神经网络模型,主要做声音分类的工作,能辨别 570 个声音类别,比如婴儿哭声或玻璃破碎声。
云端的神经网络模型规模大得多,主要做语音转录成文字的工作,由三个部分组成。
第一部分是声学模型,能够从音节的角度辨析说话者所说的是“Hi”还是“Hello”。
第二个部分是发音模型,可以根据识别出来的音节做拼接或组合,组成实际的单词。第三部分是语言模型,根据识别出来的单词添加适当的标点符号和停顿,以符合人类语言使用习惯。
基于云端神经网络做语音转录的好处是,对设备性能要求没这么高。Sagar 告诉 PingWest 品玩:“这意味着,Live Transcribe 在一些性能较弱的低端设备上也可以正常运行。”
理想状态下只要有互联网接入,能使用 Google 服务,语音转录延迟都可以控制在 200 毫秒以内。Sagar 对 PingWest 品玩表示:“在一些网络接入速度没这么快的第三世界国家,听觉障碍人群其实愿意花一点时间来获得更加准确识别的效果。因为如果没有这款产品的话,他们是很难听见的。”
落地遇到的问题
落到实际用户使用场景,Sagar 团队要解决的问题不止设备性能和网络连接。
Sagar 团队与加拉德特大学共同发起了用户体验研究,考虑了几种不同的设备:计算机、平板电脑、智能手机、小型投影仪,甚至还有 VR/AR 眼镜。“考虑到产品能够具有普惠性,最终选择了成本比较低廉,大家都用得起的一种设备——智能手机”。
“第二个我们要解决的问题是,实时显示字幕的时候是否要显示字幕转录的置信度(转录后文字的可信程度)。”Sagar 说。
一开始,他们曾尝试用颜色来代表转录文字置信度,黄色代表高置信度,绿色代表中等置信度,而蓝色代表低置信度,白色单词为新文本。
Sagar 团队最终放弃了显示置信度:“经过测试,我们发现这种方式会给用户造成一个错觉,好像同一颜色的是一个词组。”
第三个要解决的问题是环境噪音,又称之为“鸡尾酒会问题”:在一个派对场景中,有很多人在交谈,机器很难识别正确的谈话对象。
“为解决此问题,我们构建了一个指示器,用于显示相对于背景噪声的用户说话音量。”Sagar 说:“较亮的内部同心圆代表噪声层,代表当前环境所处的噪声级别。外部同心圆表示麦克风对说话人声音的接收状况。用户可借此收到即时反馈,了解麦克风的接收状况,以便其调整手机位置。”
将来,Sagar 团队会继续改善“鸡尾酒会问题”的解决方案,让对话者的声音更好地从多个说话对象中分离出来。Sagar 说:“Live Transcribe 也不排除会出 iOS 版本,让更多受众用上这项服务。”
0 条评论
请「登录」后评论