AI的悄悄话大挑战

发布时间:2020-06-06 | 作者: | 来源:http://www.222sb.com/info_26811.html

AI的悄悄话大挑战

AI的悄悄話大挑戰 对于有听力困难的人来说,唇语能帮助他们与一般人沟通,是手语之外的另一种关键沟通能力。然而对人类而言,要掌握嘴唇的细微动作十分困难,现实中即使是经过严谨训练的唇语专家,甚至是情报间谍都仍有高度辨识误差。因此Google旗下DeepMind研究团队与牛津大学合作,开发出LipNet读唇系统。透过机器学习,训练AI也能「读唇」。经过改良后,系统辨识错误率虽仍达41%,却已明显优于人类专家(错误率达93%),进步可谓相当显着。

提取唇动资料

研究团队以贴近真实生活的YouTube影片为材料,由长达14万小时的影片中,过滤掉非英语发音、未拍摄到唇部的低画质视频,透过卷积神经网路(Convolutional neural network,CNN)辨识影像中说话者的唇部与口部动作,根据音位(phoneme)重新剪辑为可用素材片段,共4000小时的影像,包含逾127,000个英文单字。所产生的数据量,是以往相关唇语识别研究的七倍之多,对于神经网络训练来说,虽拉长训练时间,却也相对提升了系统準确度。

AI的悄悄话大挑战

图1、唇动影像 ( 来源:NewScientist )

以「音位」为基础

与过往不同,本次研究採用自然语言中能够区别意义的最小发音单位─「音位」作为主要特徵参数,而捨弃常用的音节或单字。这样选择的好处之一,在于平时所说出的音节、单字,甚至是完整字句,都是藉由一系列固定的音位序列来达成。发出单一音位所牵涉的唇部动作,相对有限。藉由唇动影像辨识对应音位,再由音位序列推论出所对应的单词与字句,虽然看似绕了远路,却也让整体辨识系统有机会出现突破性发展。

AI的悄悄话大挑战

图2、英文中常见的44种音位 ( 来源:Rising Stars )

两阶段辨识模型

由于以音位为参数的模型十分庞大,为了加快效率与準确度,处理程序共分成两个阶段。第一阶段,先採用连结时序分类(Connectionist Temporal Classification, CTC),根据每帧影格中的唇部动作(输入端),来推测最有可能产生的音位序列(输出端)。第二阶段,才是将上阶段所便识出的音位序列,转译为单词序列,成为人类所能理解的语言陈述方式,成功建立「唇动影像—音位序列—单词序列」的识别模型。

AI的悄悄话大挑战

图3、从每帧唇动影像预测最有可能的三种音位 ( Shillingford et al., 2018. )

此类模型的另一优势,在于AI若需要学习新的字彙,人类仅需就第二阶段的神经网络重新训练,也就是重新建立新单字与新一组音位的对应关係;而第一部分,也就是唇部动作与音位的对应,由于人类受到喉部与唇部构造的限制,所能发出的音位有限,则无需更动。

优于人类专家的识别能力

建立好神经网络并接受训练后,研究人员以37分钟的影片来测试AI的实用性及準确度,虽然单字识别错误率高达41%,但已优于经过严谨训练的人类唇语专家(错误率高达93%),以及现有其他以机器学习为底的唇语辨识系统(错误率达77%)。

儘管错误率仍有降低的空间,但此次研究无疑开启唇动识别的新方向。预期若往后研究发展顺利,将可整合AI唇语识别功能至智慧型手机中,成为听障使用者随身携带的翻译机,或辅助串流影音声音与字幕的同步,甚至应用于国家安全监控。

编译来源

M. Hutson, “Lip-reading artificial intelligence could help the deaf—or spies“, Science/AAAS, 2018.

参考资料