京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1612|回复: 0

听 6 秒钟语音,这个 AI 就能知道你长什么样

[复制链接]

1

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-6-9 07:54:05 | 显示全部楼层 |阅读模式 来自 中国
声音可以暴露很多信息,比如说,广东人跟东北人讲的普通话永远都不是一个味儿。
6 R( T; H& G! d6 O1 j& g8 J而麻省理工学院(MIT)最近一项研究发现,经过训练的 AI 不仅能从声音里辨别出你的性别、年龄和种族,甚至能猜出你大概长什么样。这些「秘密」都藏不住了。- W# Z6 I4 H/ I, g: B2 |
▲ 图自《华尔街日报》+ M# q$ f1 i( o1 c; R' L' ?
研究人员用一个由数百万 YouTube 视频剪辑组成的数据集,对一个名为 Speech2Face 的神经网络模型进行自我训练,从最终结果来看,6 秒语音对人脸进行还原的效果还算不错。: _! r* W  G+ D# x/ d* r
▲ 一共 6 组结果示例,左边是视频里的人像,右边是 AI 根据声音还原的效果$ E7 {. x9 V9 H- ]! q# e9 J
Speech2Face 模型的运作大概分为两部分,一个是语音编码器,负责对输入的语音进行分析,预测出相关的面部特征;另一个则是面部解码器,对输入的面部特征进行整合产生图像。  o' O, ?! N; W& k: d  Q
MIT 研究团队指出,他们的目的不是为了准确地还原说话者的模样,Speech2Face 模型主要是为了研究语音跟相貌之间的相关性。
+ ?' y7 m0 V6 m从训练结果看,Speech2Face 能较好地识别出性别,对白种人和亚洲人也能较好地分辨出来,另外对 30-40 岁和 70 岁的年龄段声音命中率稍微高一些。7 A- k- Y+ ?+ u, i; v. n8 |/ {
▲ Speech2Face 似乎倾向将 30 岁以下的说话者年龄猜大,将 40-70 岁的说话者年龄猜小1 g% s2 A6 q3 w( C/ P6 C- j
除了比较基础的性别、年龄和种族,Speech2Face 甚至能猜中一些面部特征,比如说鼻子的结构、嘴唇的厚度和形状、咬合情况,以及大概的面部骨架。基本上输入的语音时间越长,AI 的准确度会越高。; b( C; B& R/ F6 `) G2 c- g0 g
当然 AI 的「听觉」也会出错。研究人员发现,它会将未经历变声期的小男孩识别为女性,对一些说话者的口音判断错误,也会搞混年纪……这一点完全可以理解,毕竟声音还是会骗人的,夜夜伴你入睡的萌妹奶音主播,实际上说不定就是个抠脚硬汉。
1 A$ c7 Q- x, E4 p! K9 M; j$ a% w▲ Speech2Face 的一些错误示例
2 _- X, {' j/ Q$ I; j$ t# ]研究人员指出,Speech2Face 的局限性,部分原因来自数据集里的说话者本身种族多样性不够丰富,这也导致了它辨认黑种人声音的能力比较弱。
/ L# n" I, t) Z# g$ G) A# l$ z至于他们对这个 AI 模型的应用,则有一个很可爱的想象:只需要说几句话,未来 Animoji 和 Gboard 等功能或许就能根据声音生成你的卡通头像。
) {8 K8 }' {* ^# b  a; U  W▲ 图自 Independent
& h& t$ I# J' q9 _7 `不管你信或不信,藏在我们声音的秘密都正被开发研究,投入各式各样的场景应用。
, _! }% K3 a4 ~, D卡内基梅隆大学计算机副教授 Rita Singh 也主导过一项类似的研究,能从声音猜测说话者的年龄、身高、体重、环境噪音和说话时的空间类型等信息。她认为声音里藏着丰富而独特的信息,「就像是你的 DNA 或指纹」。. ~/ x& g2 P/ r8 X3 }" @% R
这项技术后来升级成跟 Speech2Face 相似的语音分析系统,还原人脸的准确度达到 60%-70%,目前正被美国海岸警卫队用于缩小调查范围找到恶作剧报警者。据称,他们每年会接到约 150 个恶作剧电话,这些行为被视作浪费警力,甚至会遭到刑事起诉。
7 `9 T" R  v, _0 ?) p! g' ~4 {▲ 听起来就像是刑侦剧里的犯罪侧写师( o# m% _+ E# J% I5 H8 ]: q& S2 Y
目前,汇丰、渣打、摩根大通等银行都在用「声纹」作为身份识别的一种方式(voice ID),可以检测你的账户是否被盗。
6 |7 Q( Q) t+ Z8 u大都会人寿保险公司的客服中心,会用一套 AI 系统帮忙识别客户的情绪和感受,平均准确率达到 82%;一些保险公司甚至会借此判断来电者有没有骗保的意图——如果说话时出现微小停顿,很可能就是在提供虚假信息。  \/ O" w$ N. \7 N- x- n6 P
除此之外,经过训练的 AI 还被一些公司用于招聘,从应聘者的说话模式分析出性格特征,判断是否适合在招岗位。
5 k4 o( q7 q" ~, ]7 R; r5 X而丰田汽车曾经在 2017 年 CES 大会展出 Concept-i 概念车型,车内配备红外摄像头、传感器、车载语音识别和对话系统,它们将协作判断司机是不是处于疲劳驾驶状态并作出提醒。0 m& J8 H1 }9 z/ h$ C$ T) U& ]
跟 MIT 的卡通头像相比,Singh 教授的想法似乎要更长远且宏大一些。她希望,有朝一日语音识别技术可以用于远程确诊帕金森等疾病。
6 Q% z, r/ o8 T. }4 C# c' j% P. I▲ 图自 NewScientist
4 |8 @/ K0 ~, w4 u1 N% d而目前已经有研究发现,冠状动脉疾病患者在声音上会留有不同的频率标志。未来,「听声看病」说不定也会跟「听声识脸」一样成真。
5 k/ C; m, K4 A/ \& j! o题图来自 itcrumbs.ru
  C: ?& m" y: f3 V; h7 y
; |9 o( H0 Z' g* M  {# N. p来源:http://www.yidianzixun.com/article/0MDyOUEi6 w6 b; U6 F$ ?( H: r
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-20 18:15 , Processed in 0.036905 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表