京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3643|回复: 0

AI对战人类新里程碑!打6人德扑大胜世界冠军,学习成本仅千元

[复制链接]

30

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-7-12 17:04:23 | 显示全部楼层 |阅读模式 来自 中国
看点:AI对决世界冠军再获胜利,在6人无限制德州扑克比赛中取得里程碑突破。
" E' s5 B. Y0 T0 |( Z6 C; E$ C- p& J& q( w9 G0 O7 b1 Q9 ?0 X9 l

0 \! n7 Q! W# S9 B  `0 `6 X导语:Facebook AI和卡耐基梅隆大学的研究人员研发出了新人工智能系统,成功打败德州扑克世界冠军在内的15名职业选手,为人工智能与人类竞赛领域再次带来新突破。
  g; t6 {( G0 ?3 I智东西7月12日消息,昨日,Facebook AI和美国卡耐基梅隆大学(Carnegie Mellon University)的研究人员在《科学》杂志上发表了一篇论文,他们研发出了一款名叫Pluribus的扑克人工智能机器人。/ |9 i; s. a' J1 z( N* T$ j
该机器人在6人无限制德州扑克比赛中击败了15名职业选手,其中包括2000年世界扑克锦标赛冠军克里斯“耶稣”弗格森和4次世界扑克巡回赛冠军达伦埃利亚斯。2 o. F* \3 M/ r0 f# w
Facebook声称,Pluribus是第一个在基准游戏中持续击败2个人类玩家以上的人工智能。6 v- l( Q3 c: W5 _8 {
Pluribus由Facebook AI和卡内基梅隆大学计算机科学系,以及战略机器(Strategic Machine)、战略机器人(Strategy Robot)和优化市场(Optimized Markets)等公司共同合作研发。
& P0 y* x; o  E# T" E6 Q/ J: z研究人员在《科学》杂志中对如何创建Pluribus进行了详细介绍。
: k8 |) ^. H8 }8 E! z2 i! q4 _, x; U+ U! Z. F6 r1 y" ?
7 O6 M! g6 e2 a' a, b' C. z7 O/ j2 ?
) N( k0 X, {( ^( ?, a8 y
对于这项研究的意义,研究人员在论文的最后总结道:
: s" X* U# L, k2 |自我博弈(self-play)与搜索形式相结合,已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功。然而,大多数现实世界的战略互动涉及隐藏信息以及两个以上的参与者。这使得理论和实践存在很大的差异性,而且明显更加困难。
/ k+ B- R: w! l# h为多人德州扑克开发超能AI不仅是AI领域的重要进展,也是计算机扑克领域的里程碑。4 V! p3 A- W! w
Pluribus的成功表明,尽管理论上没法保证AI在多人游戏中的表现,通过精巧的算法依然有望设计和训练出超越人类的AI。0 y+ z7 X; w/ M' D: w1 D
% `8 @" ?; @( @/ P$ }: ^, [
Pluribus击败德州扑克世界冠军
) f/ Z; B" i, z" p0 Y. I. L
7 \0 |+ }  E) X8 [, b* n
/ n# W: W# ~! z% J6 k6 @. g% I: @
扑克一直被研究人员们认为是人工智能领域的重大挑战,它可以用来衡量AI在博弈论方面的表现。
" W" v! y* q7 |% u: `事实上,在扑克游戏中包含了许多隐藏信息,这意味着人工智能在不知道对手的牌的情况下,需要靠“虚张声势”的表现或其他策略诱惑对手,才有可能获得成功。
% |* |: |* Z, B& [7 ~8 ~然而,这些战术并不适用于其他游戏,这使得扑克能够很好地与人工智能技术相抗衡。
; t- L( t4 R# X' J  s/ {8 d由Facebook AI研究科学家Noam Brown和卡耐基梅隆大学的Tuomas Sandholm教授共同研发的Pluribus机器人就是人工智能在扑克游戏领域的一大突破。
4 A6 F0 H$ S2 S在12天的测试比赛中,研究人员让Pluribus分别在两种不同的环境中人类选手进行游戏对决。一种为5位人类选手与1个Pluribus相对决,另一种为5个Pluribus与1位人类选手相对决。
; I0 }2 x: f! y1 Z其中,它的对手包括2000年世界扑克锦标赛冠军“耶稣”克里斯·弗格森(Chris Ferguson),以及4次世界扑克巡回赛冠军达伦·埃利亚斯(Darren Elias)。
( ]" C# K. E, E1 X针对这场测试比赛,Facebook AI的研究人员表示,如果每个筹码价值1美元,那么Pluribus每把手牌大约可赚5美元,每小时可以赢得大约1000美元的奖金。  R! ?9 O8 u8 R2 B( B$ @9 h$ w5 a
Pluribus在游戏中考虑的投注数量主要在1到14之间变化,确切投注还需要看实际情况而变化。尽管它可以在100到10,000美元之间进行投注,但实际上玩德州扑克时,对手并不局限于那些少数选项。
6 L7 C' f$ [( m+ m$ `  ]6 ]* ^! `+ J, V- d2 O9 ], k

: Z7 F( G& U6 I通过自我游戏从零训练
* j$ v) @  e6 \! u/ X% }$ G: v8 t8 g

8 d1 g" @" M4 j
5 p& a' O6 b! Z1 c3 G: z6 r就像以往人工智能被训练玩像象棋、Dota II和星际争霸II等游戏一样,Pluribus也能进行自我游戏训练。# [, ]8 A/ h& y4 L# y
自我游戏中,Pluribus在没有任何人工或先前人工智能游戏数据输入的情况下,与自己的副本进行对抗来掌握德州扑克的规则,以及计算战术数据。
; q) [% L+ n, s. q3 }但是,这种“自我游戏”的学习方法意味着Pluribus无法从人类那里获得任何游戏数据,也无法观察到其他人工智能系统的游戏策略。/ x, C4 r9 b$ Y- p) q
研究人员在论文中表示,Pluribus从零开始随机运行,并逐渐改进,它需要决定将做出哪些动作和这些动作的概率分布,以产生比它早期版本策略更好的结果。8 n. m( z5 L' F- Z8 M
训练方面,Pluribus能够在20个小时的德州扑克训练中,达到超越人类的水平,并击败人类玩家,但是在多人游戏方面的问题依旧难以破解。
- f% W* \2 D1 U" R7 `研究人员表示,这些创新具有超越扑克的重要意义,因为双人的零和博弈(一项游戏中,博弈各方有输有赢,但收益和损失相加总和永远为零)在娱乐游戏中很常见,但在现实生活中却非常罕见。主要是现实世界的场景通常涉及多个参与者,例如在线拍卖中的竞价或者交通导航。
+ \4 ?/ _4 x$ \2 W4 c, w* r+ E- b1 |
. s- M! b+ l$ s) h: I+ J
云计算资源仅需约1030.46人民币
7 ?' |) e" X4 f3 V& H1 s, _

" [( F6 t* H& b1 B8 |7 @
* i, j# n2 G8 P' ePluribus的系统是在一个名为Libratus人工智能机器人的基础上创建的,是Libratus的增强版本。2 }+ B) N3 n6 }* u5 \: G4 r3 {
Libratus是卡内基梅隆大学在2017年开发的AI扑克机器人,它在2017年成功打败了4名顶尖的德州扑克职业选手。
0 p2 B( }- W: M* H. y- ]9 k在对战策略方面,Libratus主要采用了一种名叫纳什均衡(Nash equilibrium)的对战策略,在博弈过程中,只要其他玩家不改变策略,单一玩家就无法通过变换策略获益。
" W! J2 R9 {% N/ u; i! Q8 N" [, `与Libratus不同的是,Pluribus包含了一个新的在线搜索算法,可以通过搜索前面的几个游戏步骤,来评估自己下一步战术的选项。同时,Pluribus还拥有比Libratus更快的自玩算法。1 R0 K3 A+ q' F+ v  v  D
在线搜索算法和自玩算法的更新与结合,使得Pluribus能用比Libratus更少的处理能力和内存来进行训练。0 S1 J9 P) k" u. |8 K$ R8 J
研究人员表示,这种效率与其他近期的AI里程碑项目形成了鲜明对比,后者需要相当于数百万美元的云计算资源来进行训练,而Pluribus只需要价值150美元(约1030.46人民币)的云计算资源。
' O" K# k6 `% B0 i此外,Pluribus也利用动作抽象和信息抽象来推断游戏中未来几轮的下注情况,以及批量计算相似的牌。3 y! w' C0 U7 ~- }
它还使用CFR ( Counterfactual regret minimization)算法,这是一种能使用自我博弈来进行循环推理的游戏算法,能够不断自我博弈来进行自我改进。
$ U7 k5 [: n0 y1 F
* J; e7 n8 _# p. [" v▲记者Cade Metz(左)和Facebook首席人工智能科学家Yann LeCun(右)
  s  K. r4 n. x" P/ i  {0 o
8 m3 e' p% t' B+ G0 P7 X$ N9 C9 S
Pluribus将不会开源
2 O0 p8 r/ R7 Z& q: o1 j
# P2 |" P- G( Q  F' n
+ Z- j/ Q) q7 U7 s" u7 ~3 D5 A# L5 L% o
2000年世界扑克锦标赛冠军弗格森表示,Pluribus是一个很难对付的对手,它非常擅长在一手烂牌中下薄弱的赌注并从对手的好牌中榨取价值。
. q: G: l' a1 `& l已获得了4次世界扑克巡回赛冠军达伦·埃利亚斯也表示,Pluribus的主要优势是它拥有混合策略的能力,这也是人类玩家在尝试努力达到的水平。
/ A$ Y7 m1 {' l. ?# f& X他还认为,对人类来说,混合策略是一个完全随机的操作,大多数人在一场游戏中无法从始至终地坚持执行。
# `  d# I0 e+ B1 A虽然Pluribus可能会让那些世界级在线锦标赛的职业扑克选手感到震惊,但他们并不需要担心会在以后的比赛中遇到Pluribus。
: h9 ^" C" p- ]" _Facebook发言人Ari Entin表示,他们不会开源Pluribus,其中一个原因是,扑克竞赛本来就是商业性的,他们认为将其开源可能会造成负面影响。
+ Y3 E" N8 _( m* r+ F& R* Z几十年来,人工智能研究人员一直将游戏作为他们的AI代理测试平台。1 E  J  A- q, d! o# `, Q
近年来,由于计算技术的进步,以及数据集和人工智能技术愈加进步和复杂,人工智能在游戏平台的测试已经有了许多突破。科技巨头们也正在大力投资游戏领域,希望人工智能在该领域的突破能带动医疗、科学和能源等其他领域的突破。
% n, l' o2 G+ }9 G; S" ^
( q0 ?( R2 R( _. I4 q. {
结语:人工智能与人类竞赛新突破6 H6 E4 x8 |* P9 u" g/ H8 T7 j
5 t* U* Q  Q7 V- F1 d0 E8 P
$ S5 w# k2 P! P# y+ o1 j
自谷歌AlphaGo在围棋领域打败包括柯洁、李世石等世界围棋冠军后,给围棋界带来了巨大震动,人工智能与人类竞赛也一直是人们关注和讨论的话题。
" [5 `: p! t+ \+ @过去,人工智能通过自我博弈(self-play)与搜索形式相结合,已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功。
* ~& ^0 j3 V  I, J2 s如今,Facebook AI和卡耐基梅隆大学的研究人员开发的这款多人扑克人工智能,既是这一领域公认的里程碑,也是电脑扑克领域的重要里程碑。
" l7 V: _8 W3 f1 sPluribus与人类职业选手对决的胜利表明,尽管它在对多人游戏种缺乏已知的强有力的理论保证,但在大规模复杂的多人且不完全信息的游戏环境中,它拥有的自我搜索游戏算法仍然可以产生超越人类的策略。
; G* f8 h; g) F; K* ?9 I文章来源:Forbes、VentureBeat- f- d- r8 F% y! x$ l* m
本账号系网易新闻·网易号“各有态度”签约帐号

2 r. L; N+ G9 {" d: }( D智东西公开课预告
' a" {( ~3 R. L* T" q7月17日起,AI推理公开课NVIDIA专场重磅开讲!从理论到代码,两节课带你掌握AI推理优化方法。扫码免费报名听课。) y1 y. s3 ~, n# L' ~; t% h
8 t/ Z, ]; I* c. M2 \

) }9 V5 w5 y* X$ S: f5 h$ i. n9 d! ~; m8 t: p) k4 Q$ ?* S0 m0 a+ c
; H5 h* ~7 T0 p- K/ l& |9 y, j+ z
- ?6 Z: D  b, v* x
来源:http://mp.weixin.qq.com/s?src=11&timestamp=1562922005&ver=1723&signature=5KHB3ArHboE6SS7JLiqLmpmOwZtQ0oKTnXXh4Af43Dz8MU8bJp5uBhdhIXva6z12T-CQVsWcH5ENpJU9oSwqdngWSr0eFBhJKXfpMlrZT7GGgKaCYAkD5Btar1*F1TeN&new=1
1 b" ^; n) n! _$ s! H免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-7-20 14:54 , Processed in 0.067557 second(s), 28 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表