|
|
声音可以暴露很多信息,比如说,广东人跟东北人讲的普通话永远都不是一个味儿。
2 j% i& s0 z, g) `而麻省理工学院(MIT)最近一项研究发现,经过训练的 AI 不仅能从声音里辨别出你的性别、年龄和种族,甚至能猜出你大概长什么样。这些「秘密」都藏不住了。
9 N5 Y2 q; u* z9 l) U5 R ▲ 图自《华尔街日报》; m/ Q" C; R3 S4 G
研究人员用一个由数百万 YouTube 视频剪辑组成的数据集,对一个名为 Speech2Face 的神经网络模型进行自我训练,从最终结果来看,6 秒语音对人脸进行还原的效果还算不错。5 L* a2 Z- k: ^0 h
▲ 一共 6 组结果示例,左边是视频里的人像,右边是 AI 根据声音还原的效果
3 ^: \$ g# A4 Z# a: MSpeech2Face 模型的运作大概分为两部分,一个是语音编码器,负责对输入的语音进行分析,预测出相关的面部特征;另一个则是面部解码器,对输入的面部特征进行整合产生图像。, `% Y0 l) w# _# P- \
MIT 研究团队指出,他们的目的不是为了准确地还原说话者的模样,Speech2Face 模型主要是为了研究语音跟相貌之间的相关性。
! F/ m5 W0 S/ k2 Q$ X从训练结果看,Speech2Face 能较好地识别出性别,对白种人和亚洲人也能较好地分辨出来,另外对 30-40 岁和 70 岁的年龄段声音命中率稍微高一些。9 |9 A& |9 v" f3 P5 d
▲ Speech2Face 似乎倾向将 30 岁以下的说话者年龄猜大,将 40-70 岁的说话者年龄猜小
( Y+ b7 |& Y# y- M除了比较基础的性别、年龄和种族,Speech2Face 甚至能猜中一些面部特征,比如说鼻子的结构、嘴唇的厚度和形状、咬合情况,以及大概的面部骨架。基本上输入的语音时间越长,AI 的准确度会越高。
. k# H5 E, F# a+ s- D6 n, V, F" y当然 AI 的「听觉」也会出错。研究人员发现,它会将未经历变声期的小男孩识别为女性,对一些说话者的口音判断错误,也会搞混年纪……这一点完全可以理解,毕竟声音还是会骗人的,夜夜伴你入睡的萌妹奶音主播,实际上说不定就是个抠脚硬汉。9 {1 H$ w( U2 d0 j, i+ K
▲ Speech2Face 的一些错误示例5 R( R7 g( W7 t( [
研究人员指出,Speech2Face 的局限性,部分原因来自数据集里的说话者本身种族多样性不够丰富,这也导致了它辨认黑种人声音的能力比较弱。 y7 p) I1 K+ y8 c' K# i8 @
至于他们对这个 AI 模型的应用,则有一个很可爱的想象:只需要说几句话,未来 Animoji 和 Gboard 等功能或许就能根据声音生成你的卡通头像。$ g! ?4 P9 F& h x* ~+ R! \
▲ 图自 Independent
1 U" }8 J0 _. g! P; k' h% p+ h# ^7 `不管你信或不信,藏在我们声音的秘密都正被开发研究,投入各式各样的场景应用。! c9 C; a# K! a- h
卡内基梅隆大学计算机副教授 Rita Singh 也主导过一项类似的研究,能从声音猜测说话者的年龄、身高、体重、环境噪音和说话时的空间类型等信息。她认为声音里藏着丰富而独特的信息,「就像是你的 DNA 或指纹」。
, z0 N4 `# ]# H: F7 E/ r, q- B这项技术后来升级成跟 Speech2Face 相似的语音分析系统,还原人脸的准确度达到 60%-70%,目前正被美国海岸警卫队用于缩小调查范围找到恶作剧报警者。据称,他们每年会接到约 150 个恶作剧电话,这些行为被视作浪费警力,甚至会遭到刑事起诉。
3 a" O! ^/ b" h$ c2 |# j6 a# ^ ▲ 听起来就像是刑侦剧里的犯罪侧写师; N. O$ R# i. j1 {* t* D9 r0 w
目前,汇丰、渣打、摩根大通等银行都在用「声纹」作为身份识别的一种方式(voice ID),可以检测你的账户是否被盗。
+ Y$ ]$ `3 a8 l大都会人寿保险公司的客服中心,会用一套 AI 系统帮忙识别客户的情绪和感受,平均准确率达到 82%;一些保险公司甚至会借此判断来电者有没有骗保的意图——如果说话时出现微小停顿,很可能就是在提供虚假信息。8 R5 h# u5 I' T E* ~1 N
除此之外,经过训练的 AI 还被一些公司用于招聘,从应聘者的说话模式分析出性格特征,判断是否适合在招岗位。
& J7 u( Q& o. h7 r2 f' z0 x 而丰田汽车曾经在 2017 年 CES 大会展出 Concept-i 概念车型,车内配备红外摄像头、传感器、车载语音识别和对话系统,它们将协作判断司机是不是处于疲劳驾驶状态并作出提醒。1 M; ^. R9 p# q9 H F7 I0 g
跟 MIT 的卡通头像相比,Singh 教授的想法似乎要更长远且宏大一些。她希望,有朝一日语音识别技术可以用于远程确诊帕金森等疾病。
1 I! H* x3 w9 z$ i8 }( g ▲ 图自 NewScientist6 g& z, q6 |+ w$ G! G
而目前已经有研究发现,冠状动脉疾病患者在声音上会留有不同的频率标志。未来,「听声看病」说不定也会跟「听声识脸」一样成真。
) \" j" [, L" E% j% d( F" g题图来自 itcrumbs.ru Q! ?: R! }; L8 O
* M' p; x" P, k- o: ~来源:http://www.yidianzixun.com/article/0MDyOUEi
8 i4 e7 l* e/ _" ]: ?; `9 S1 l/ l免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|