导读柯洁大胜韩国棋手是真的吗?最佳答案刚刚与AlphaGo下过三番棋的柯洁显然像武侠小说中与绝世高手刚刚过招完一样,自身的段位也得到了显著提高。在第22届LG杯世界棋王战32强赛,他轻...

今天运困体育就给我们广大朋友来聊聊alphago,希望能帮助到您找到想要的答案。

柯洁大胜韩国棋手是真的吗?

柯洁大胜韩国棋手是真的吗?

最佳答案刚刚与AlphaGo下过三番棋的柯洁显然像武侠小说中与绝世高手刚刚过招完一样,自身的段位也得到了显著提高。在第22届LG杯世界棋王战32强赛,他轻松战胜韩国元晟溱九段,赛后感叹:“原来和人类下棋,是可以这么的轻松、自在、快乐.”

柯洁的幽默也获得了网友们的热烈反应,有趣的是在下面的解说词中还有一句:“这盘棋元晟溱面对在各方面都有所升华的柯洁,显得不堪一击。”引得网友纷纷调侃:“毕竟看过了另一个世界”“就喜欢看你嘚瑟别人还赢不了你的样子”

5月30日,第22届LG杯世界围棋棋王战32强战在韩国京畿道加平进行,由柯洁九段领衔的8位中国棋手在对阵韩国棋手时大杀四方,7人晋级。

面对如此局面,古力九段不禁在微博上感叹,“今天的LG32强赛,‘阿老师’的招大行其道,人类棋手也越来越大胆、奔放。看来,新一轮围棋技术革命正在上演。”

胡耀宇八段表示,棋手肯定会受AlphaGo的启发,不过效果如何还有待观察,“肯定会有帮助,但不能完全说明问题,这可能要下很多盘才能看得出来。”

人机大战后中国棋手大杀四方

残酷的人机大战之后,柯洁和他的小伙伴们又马不停蹄地前往韩国参加LG杯世界围棋棋王战。32强中,中国仅有8人入围,而韩国则达到了20人。

虽人数不占优势,刚刚经历了AI“洗礼”的中国军团却大杀四方,其中就包括柯洁、陈耀烨、周睿羊、唐韦星4位与AlphaGo对弈过的中国棋手。

比赛中,柯洁对阵持韩国棋手元晟溱九段。作为世界冠军,31岁的元晟溱在与19岁的柯洁对弈时完全占不到便宜。

在序盘阶段,柯洁就用了对付AlphaGo时的点三三。中盘期间“阿老师”的招法也是随处可见。“大开杀戒”的柯洁不断扩大优势,最终对手无奈中盘投子认输。

“现在才发觉原来和人类下棋,是可以这么的轻松、自在、快乐下围棋真好。”取得大胜的柯洁赛后在微博上写道,这也更像是他输给AI后情感上的宣泄。

那么,AlphaGo对于人类棋手的改变已经开始了吗?

“我觉得肯定会受到AlphaGo的启发,但目前刚下一盘棋还看不出来。”胡耀宇八段在接受澎湃新闻记者采访时表示,用AI的招法下棋可能需要再下很多盘棋才能看出效果。

在江铸久九段看来,这些与AI对弈过的棋手取得进步是很正常的。他告诉澎湃新闻记者,上周与AlphaGo下过棋的棋手都会有所收获。

“下过和没下过的差别很大的,只不过是收获多少的问题,他们比其他人更加直观地模仿AlphaGo的下法,所以有进步是很正常的。”

之后,在更多的比赛中,我们还将继续见证AI围棋给人类棋手带来的影响。

结束LG杯的比赛后,柯洁还将与周睿羊、陈耀烨等6位中国棋手参加2017“拉萨交通产业集团”围棋汽车拉力赛。届时,这几名曾与AlphaGo对局过的选手也将展现更多的围棋新理解。

AI棋谱也不能盲目模仿

在看到中国几位棋手的表现后,古力九段感慨道,“今天的LG32强赛,阿尔法狗老师的招大行其道,人类棋手也越来越大胆、奔放。看来,新一轮围棋技术革命正在上演。”

“这是多么好的时代!我仿佛回到了15岁学棋的时候。”胡耀宇八段也评论道。他表示,AI重新开启了人类探索围棋的大门。

“虽然我15岁成绩已经很好了,但那个时候刚刚进入大赛的行列、冲劲儿也很足,什么样的棋都敢下,对围棋也充满着求知欲和好奇心。”

人机大战结束后,AlphaGo“退休”,其团队公开了AlphaGo自我对弈的50盘棋谱,围棋圈普遍认为这将是人类探索AI招法的宝贵财富。

在公布这50份棋谱之前,其实已经有3盘AlphaGo的棋谱向三位中国棋手展示过,看过棋谱的时越感叹,“这些着法我以前从没见过,我认为这是来自于未来的棋谱!”

“那些棋谱的质量很高,说它是从未来传回来的棋谱一点都不为过,我自己觉得这是传奇,它将人类围棋的文明带得超前了许多。”江铸久表示。

他认为,最新版AlphaGo水平明显高于人类,学习AI的招法则是未来的趋势,“虽说AI基于复杂运算,但背后的思路和想法还是看得到的,就看你是学的是好是坏、吸收多少。”

胡耀宇认为,对于公布的这50盘棋谱可以学习,但不应盲目模仿,毕竟基于深度学习的AI本身也是在不断自我升级、创新之中。

“我们要学的不是具体的招法,而是招法背后所包含的逻辑和意境。如果一味沉迷于招法本身,那你很可能将被阿尔法狗禁锢了自己的思想。”

为什么alphago自战棋谱非常激烈,而跟人类的棋

最佳答案在13日结束的AlphaGo与李世石五番棋对决中的第四局,李世石胜出。连败三局之后,人类终于扳回一局。但这场胜利来得有些迟,AlphaGo此前已经痛快得赢得这场人机大赛的胜利。这场生生夺走一周眼球的人机围棋大战,人们最想追问的是,AlphaGo为什么能战胜人类?

赛前,无论是职业棋手还是科技界,并不看好机器胜利

机器赢了人类,这个结果让无数人感到吃惊与意外。在这场比赛开始前,很多职业棋手认为 AlphaGo 不可能赢得比赛。棋圣聂卫平在赛前下定论认为:电脑和人下围棋,百分之百是人赢。

而科技界对 AlphaGo 是否能赢得比赛表示谨慎看好,并没有十足信心。这从 AlphaGo 创始人德米什 · 哈萨比斯(Demis Hassabis)在第二场比赛结束后的发言可以看出,他当时认为 AlphaGo 的胜利难以置信。

在与李世石对弈前,AlphaGo 于去年 10 月与欧洲围棋冠军樊麾进行了对弈,以 5:0 战胜了樊麾,而在非正式对局当中, 樊麾则 2 次中盘战胜了 AlphaGo。

这也被外界认为 AlphaGo 很难战胜李世石的原因。樊麾的等级为职业棋手二段,李世石为职业九段。围棋界公认,这两人的围棋水平为:樊麾是踏在了职业门槛,而李世石则是职业顶尖,前围棋世界第一人,代表了人类围棋最高水平。

但仅仅过了 5 个月,AlphaGo 在五番棋中以 3:0 战胜了李世石,并且在比赛过程中下出了很多令专业人士都非常惊讶的妙手。

很多关注人机大战的人都想要知道一个问题:

Google是怎么设计AlphaGo的?

比如,AlphaGo 的运行机理是什么?进入自我学习的阶段之后,谷歌团队是否还需要人工对其进行不断的人工优化、改良以及提升?还是完全凭借其自身的学习能力来提升?

最近两天 ,DoNews 记者在 Twitter 上就该问题向德米什 · 哈萨比斯进行了两次提问,但德米什 · 哈萨比斯没有进行回应。

在对外公布的所有信息中,包括其在《Nature》上发表过的两篇论文中,都只提到了他们的 AlphaGo 能够做什么,都没有透露 AlphaGo 的运行机制是什么,即 AlphaGo 到底是怎么做到的。

德米什 · 哈萨比斯仅透露,就 AlphaGo 的对弈水平而言,他们的神经网络训练算法远比它使用的那些硬件重要得多。此外,这次人机对战所消耗的计算量与 AlphaGo 和樊辉对弈中消耗的相当,使用的是分布式方案搜寻,能有效节省决策用时。

人工智能战胜人类,为何引起这么多关注?

围棋这项发源于中国的有两千年历史的智力游戏,曾被认为是最后一个人工智能不能超越人类的游戏。围棋游戏的规则是:棋盘由纵横各十九条等距离、垂直交叉的平行线构成。形成 361 个交叉点,在围棋中简称为 “点”。对局双方各执一色棋子,轮流下子,最后谁占的点多,谁就赢。

虽然围棋规则简单,但建立在此规则之上的各种策略、棋理、布局、定式、手筋、手段,却是无穷无尽的。

聂卫平曾解释了其中的原因,围棋棋盘上有 361 个点,其理论变化值是 361 阶乘,阶乘到底本身就是一个无限大的数,无法表达。

比如,棋手在下第一手时有 361 个点可以选,下第二手有 360 个点,第三手是 359,361×360×359×……2×1,即 361 阶乘。(有数据统计,结果约是 1.43 乘以 10 的 768 次方。)

这个数字有多大呢?Google 灵感来源于一个单词 Googol,以表示知识之海无穷无尽。Googol 代表 “10 的 100 次方”,这个数字是人类目前最有想象力的数字。即使人类已知宇宙中原子数量,也不过是 10 的 80 次方。

同时,在围棋对弈中,还包含着很多变化:打二还一,打三还一,打劫,倒扑等,每一种变化都会衍生出无数的变化。

在下棋过程中,棋手需要有一种判断。而此前,电脑被认为无法承担这种判断,因为这不是计算就能够完成的。

AlphaGo 是怎么做到的

AlphaGo 结合了 3 大块技术:蒙特卡洛树搜索 (MCTS) 是大框架,这也是很多博弈 AI 都会用的算法;强化学习 (RL) 是学习方法,用来提升 AI 的实力;深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数。

我们在这里用比较通俗的语言来解释一下:棋盘上有 361 个点,AlphaGo 会进行一层层分析:下在哪个点或区域是有利的?这时它会参考输入的过往的棋谱,对局和模拟,进行选择、推演,并对推演结果进行估值。AlphaGo 能够理解会根据“赢”这个目标来进行估值,选择出一个对“赢”足够优的解。

围棋?AI 能超越人类的还有很多.

AlphaGo 的胜利,引发了大讨论。因为人类开始面临着一个前所未有的情况:人类造出了,在智能的某个点上,超越自己的东西。 通过黑白纹枰上的胜利,AI 已经在人类的智力围墙打开了第一个缺口,但这绝非最后一个。

在过往漫长的岁月里,机器都只是人类劳动的一种替代与工具,无论飞机、汽车、起重机还是电子计算机、互联网,尽管看上去有着无限的能力,但却从未侵入由人类大脑所把持的领域——“创造”。

而随着 AlphaGo 的胜利,这一天或许将成为历史。实际上,过去几天,这台人工智能在围棋盘上发挥的创造能力,已经超越了人类两千年于此道上积累的智慧结晶。

如果我们检索人类的“资源库”,会发现,复杂程度超越围棋的智力行为并不多见。这也意味着很多传统人类脑力劳动的形态,发生改变。很多从事创作、设计、推演、归纳的工作,都将被 AI 部分替代。

如果将思路拓展出去,可以应用在音乐的创作,等其他类似于元素组合式的创造,从某中意义上说,它能够击败围棋的顶尖高手,也就有可能让人难辨真假的音乐和旋律。甚至做出更多我们想不到的事情。

按照德米什 · 哈萨比斯的设想,人工智能未来的主要用途将是医疗、智能助理和机器人。

而人们通过这次比赛担忧的是,如果人工智能拥有创造性的思维,加上远超出人类的运算能力,是否有一天会统治人类。

就像网友评论里说的段子一样,“第四局AlphaGo输了,是不是AlphaGo故意输的?细思极恐”。

AlphaGo 是怎么下棋的?

最佳答案本来其实不想写这个的,但是看到很多网友以及一些围棋职业选手提出了一些疑问,比如「Google 没有顶尖的棋手为什么能开发出顶尖的围棋机器人?」还有「机械为什么可以在如此直觉主导的游戏中战胜人类?」。这些问题事实上在人工智能领域已经有很多理论来做解释。而且这些理论也并不是 Google 提出的。AlphaGo 所使用的理论大多还是十余年前左右的论文的一些成果。在此之前,使用了这些理论开发出来的人工智能其实已经在 2006 年就已经在 9x9 的小棋盘上战胜周俊勋九段,之后在 2013 年 CrazyStone 程序就已经在让四子前提下战胜过石田芳夫九段,而就在去年,Facebook 的围棋机器人在不让子的前提下,胜过职业选手。至于之前「前百度深度学习研究院」的吴韧所开发的异构神机也使用的是类似的理论,也在前几天战胜过职业棋手。

这些方法上,AlphaGo 并无太大创新,很大程度上是 Google 团队实现得相对完善以及训练程度更好,以及人工智能算法的实现和调参存在很大的偶然因素。那么究竟是什么方法让机械拥有了和人一样直觉,而不是简单的机械化的思考。这事我们还是要从头讲起。

早在 1996 年,IBM 的深蓝计算机就战胜了国际象棋世界名将加里·卡斯帕罗夫。但象棋有一个特点,那就是每一步下的选择是相对非常有限的,最多也就十几种可能。哪怕是通过最最暴力的搜索方法,把每种都跑一遍,搜索几十步内的最优解。虽然这个方法随着搜索深度是指数级增长的,但事实上由于底数比饺小,依靠强大的算力还是可以解决的。而深蓝计算机正是这么一台拥有强大算力的超级计算机。

然而在围棋上,这样就不行了,因为围棋每一步都有上百种选择,如此大的底数纯粹的暴力就显然无法满足了。至少硬件的发展并非每年成百倍成百倍地快速增长的。同样的方法,显然是不适合使用在围棋上的。

在 2002 年之前,人们长期研究一个可以通过计算静态地分析出每一子的价值出来。然而这个方法的发展一直很慢。直到人们试图尝试一种动态评估一个博弈的一种方法,这就是靠 。这个方法被称为蒙特卡洛搜索树,其前身是非常著名的上世纪曼哈顿计划期间由乌拉姆和冯·诺依曼提出的 蒙特卡洛方法

如果我们想知道圆周率的值,我们如何利用猜的方法来猜出圆周率呢?我们只需要在一个方形中随机而均匀地扔飞镖,数一下,多少个飞镖扔在了以方形边长为直径的圆里,多少扔在了外面,根据圆的面积公式和方形的面积公式就能把 π 算出来。而蒙特卡洛搜索树就是利用蒙特卡洛方法来优化搜索树。简单来说,就是,我们认为这一步下在一个地方是最优的,而我们不知道这地方在哪里。我们先通过一系列随机的采样,从而去猜测一个值,这个值可能是最优解,也可能是一个接近最优解的解。但至少,这可以用来估算像围棋这样大的棋盘的东西了,而不需要把每个细枝末节都同等对待地来暴力搜索。

解决完计算量的问题,我们还要来解决人类在围棋上最大的优势——直觉,或者说「大局观」。那么如何才能拥有大局观呢?我们想一下,人们在下围棋的时候,通常会先考虑下在哪个片区,以获得什么样的目的。而这就是所谓的大局观。

AlphaGo 的另一部分重要思想,得益于神经科学的发展,即人类认识人大脑神经的发展。人类愈发了解了大脑内神经元的工作模式,包括人类学习、认知的神经模型。这样的非常基础的模型,极大地方便了利用计算机来模拟人类进行学习的过程。

蒙特卡洛方法只是简化了计算,并不具备学习的能力。无论是单纯的蒙特卡洛搜索还是与 α-β 搜索结合的还是和置信区间结合一些版本,都与人类能越学越强的围棋技巧相比差上太多。至少,人脑是一个极其复杂的计算模型,哪怕是现在最好的计算机,其算力和整个大脑比起来还是差很多的。

在 2007 年,一些科学家试图提出一个新的机器学习模型,即所谓的深度学习。所谓深度学习,你可以看做模拟许多许多人脑中的神经元构成的一个网络。网络的每一层,针对一个特性进行识别。网络的每一层,都是一个单纯分类的无监督学习模型。你可以想像一下,人眼看到一个图像。经过一系列神经元,首先识别出了里面的眼睛、然后识别了里面的鼻子、嘴,再根据这些特性,发现这是一个人。这样依次发现的机制。而学习是通过一个有监督的反向传播进行。即告诉你这张图像里有一条狗,然后反向的一步步调整网络,让网络适应符合怎么样鼻子、嘴、眼睛的是一条狗。通过不断地数据的训练,即可以让模型越来越优。这个模型在图像识别领域已经达到甚至有时超越了人的识别能力。

而 AlphaGo 使用的就是深度学习来优化蒙特卡洛搜索树。在 AlphaGo 中有两个网络,一个是策略网络,一个是价值网络。策略网络即是一个大局观的网络,机器会先通过其经验,找出其应该做出进攻的反应还是防守的反应,表现在下在哪个片区是最为合适的,是不是应该跟棋之类的大问题。然后再通过蒙特卡洛搜索树去算出具体下在哪里是最合适的。

而我们说到,深度学习模型是真的和人一样可以学习的。每下一次棋,它就可以进一步调优自己的策略网络。首先 AlphaGo 导入了上千个职业选手对弈的棋谱,使得自己有了一个基础的下棋策略。这时候的 AlphaGo 就和一个受过系统训练的围棋少年一样了。然而这和职业选手的区别还是很大。这也就是所谓的「Google 没有顶尖的棋手为什么能开发出顶尖的围棋机器人?」按照一般常理,AlphaGo 应该一段一段地和人挑战,越发提高自己能力。然而 AlphaGo 不是这么做的,它选择和自己对弈。两台 AlphaGo 来对弈,将对弈的结果调优自己的网络。这个听起来很奇怪,为什么两个下得都不怎么样的棋手一起下棋,棋艺能那么快提升呢?因为它一天能和自己下上百万盘棋,它可以把自己分身成几万份跑在几万台电脑上,以及可以昼夜不停也不会过劳死,而这是任何一个人类都做不到的。AlphaGo 的开发人员说,他曾在早期能下赢 AlphaGo,而很快,AlphaGo 的水平就远超了他。所以 AlphaGo 得到了飞速的提升。仅仅五六个月,AlphaGo 就能从战胜欧洲棋王挑战到世界顶尖选手的水平了。

当然搞人工智能也要有基本法。这个基本法就是算力或者说是资源。虽然做了很大的优化,计算下围棋的计算量还是很大的。比起深蓝时依靠超级计算机来解决问题。AlphaGo 选择了一条适合 Google 的路径来解决算力问题。那就是分布式计算。使用分布式计算的 AlphaGo 版本比起不使用的版本其智能程度也是有相当大的提升。即使最简单,它也可以有更多时间来做随机的尝试,以找出更优的价值解。

同样利用深度学习优化蒙特卡洛搜索的 Facebook 围棋团队,相比 Google 就没有那么壕力冲天了。无论是开发资源还是人员来说也是远少于 Google。Facebook 的围棋机器人之前也取得了相当好的成绩,大概可以击败职业二段选手的水平。但是比起 AlphaGo,还是差上许多。

所以说,做这么一个人智能,背后的投入程度、重视程度也起到了很大的作用。这也是为什么深度学习目前做得很好的公司大多是一些顶尖的 IT 企业里的研发团队。

比起 AlphaGo 在围棋上的成就,其实大多数人很好奇人工智能未来的何去何从。从这次中,我们看到计算机已经具备了人类大局判断能力,其本质是类似于人类的学习能力,即不告诉电脑应该怎么做,而让电脑看人类是怎么做的。这项的应用其实相当广泛,尤其在非常复杂的问题上。

比如说,无人驾驶汽车之前发展很困难,是因为人们总是试图去把驾驶规则完全讲给电脑,而这点太过复杂,难以用纯逻辑说清。而今天 Google 的无人驾驶汽车也是使用的类似的深度学习的技术,让计算机观察人类开车并学习,从而模仿人类的判断。最终依靠计算机强大的算力和不会疲劳等特点,甚至超越人类的判断。

短期来看,利用深度学习的人工智能在未来数年内将会得到很大的应用。而这也是 Google 热衷于下围棋的原因。醉翁之意不在酒,在乎山水之间也。Google 只是想利用围棋来显示他们在深度学习应用上的先进水平。

就人工智能的最终目的来看,我们已经跨出了很大的一步。之前而言,我们很大程度局限于人类强大的抽象的思考能力,而模仿人类神经系统的模型已经很好地模拟了这种思考是怎么产生的了。进一步说,如果一个机器,拥有和人完全一样的眼睛、耳朵、鼻子、触觉等作为它的输入,以及类似于人类肌肉和关节的机械部件作为它的输出。并且模拟一个和人脑一样复杂程度的神经网络,并让它观察人类进行学习。是不是在某个未来,我们可以拥有和人类功能非常接近甚至超越人类的智能的出现。深度学习都为这样的强人工智能提出了理论上的基础。

AlphaGo能轻松战胜世界上最好的围棋大师,人类相对于AI,是不是就是废柴一个?

最佳答案当半年前 AlphaGo 在乌镇将世界第一棋手柯洁打的无力还手时,人类已经将 AlphaGo 称为“上帝”,这个“上帝”的棋艺已经超出最顶尖人类棋手太多。

对于不少人来说,看到人类面对机器接连的失利,会让他们倍感沮丧,尤其在 Goratings 网站评分中,AlphaGo 4500 的分值早已远超柯洁的 3620 分,你说 AlphaGo 和柯洁早已是两个境界,或许也并不为过。

但不要忘了,AlphaGo 之所以能达到如今的境界,是它所学习的一切围棋知识,都来自人类,学习的每一盘棋局,也都来自人类棋手精彩的对弈,你要说人类输了,其实并没有,我们有了一个青出于蓝的学生,这是赢。

现在的 AlphaGo,已经可以跳脱人类老师,自己和自己对弈,每一颗子的可能性和盘棋局的复杂性,要比同人类对弈的难度大得多。

此时的第四届世界互联网大会正在乌镇举行着,Google CEO Sundar Pichai 也前来参加,所谈论的,依然是人工智能在人类社会中的发展。

而 Google 每次来华,都喜欢和围棋界交流交流,这次也不例外,不过这次不是让 AlpahGo 对抗柯洁了,而是让它转换身份,当当老师。

Google CEO Sundar Pichai 表示,Google 正在开发围棋学习工具 AlphaGo Tools(阿尔法围棋工具),这套学习型工具的特点是,它已经收集了 231000 套人类对弈的棋谱,同时还囊括了 75 场 AlphaGo 与人类棋手对弈的棋谱,目前这套工具已经基本开发完成,不久就将推出。

从围棋角度看李世石与 AlphaGo 的第二局比赛有哪些关键之处

最佳答案没有太多时间写一个长答案,就简短说一下我感受最深的一点吧:

现在职业棋手判断形势的算法,有明显漏洞。

职业棋手判断形势的算法大致可以概括成一句话:估算双方的目数(地盘大小)差距。

那如果地盘的边界没有完全确定怎么办呢?如果有先手官子就判给先手方,如果是双方后手官子就算一人一半。

那么有一些模糊的地方,比如说一块厚势折算成几目呢?这个就只能凭感觉了。

今天看各个平台的解说,大概是柯洁的判断最准确。柯洁在中盘阶段就点出黑棋盘面15目左右。古力一度判断小李优势,甚至到官子不多的时候还认为是细棋。金明完也。麦克雷蒙的判断没有仔细听,好像比古力要准一点。芈昱廷在128手的时候认为还是细棋(这个时候柯洁已经判断黑棋明显领先了)。围棋TV的完全没有看,请各位补充。

暂且不论到底是谁的判断更准,我们可以简单看一下白128手时候各方的判断。有柯洁说黑棋领先一个贴目,也有说细棋的,甚至有说白棋小优的。这些职业棋手对同一局面判断上的分歧居然能超过一个贴目!这恰好证明了上述算法模糊之处可能产生的巨大误差。

那么我们思考一下误差可能产生在何处。第一,先手官子判给先手方。然而在棋盘上,“先手”是个相对概念,逆收官子屡见不鲜。甚至在有些情况下,面对“绝先”,奋力一搏选择脱先他头也不少见。第二,模糊判断。这个问题更大。职业棋手对一块棋厚薄判断的分歧,很可能导致点目结果的南辕北辙。

AlphaGo是如何做形势判断的呢?AlphaGo策略组合的其中一部分是价值网络。这一部分的原理以我的水平解释不清楚。为了方便理解,我们考虑前一代AI,Zen的判断方式:通过大量的随机采样估算“胜率”。打个比方,一盘棋下到120手。在这个时候AlphaGo随机落子完成一盘棋,然后判断哪一方在这个随机完成的一盘棋中获胜。重复这个流程多次,比如说十万次,然后其中三万次黑胜,七万次白胜,那么估算出白方的胜率就是70%。

当然,AlphaGo的价值网络比Zen的方式要先进很多,让估算的胜率更加准确。

AlphaGo并非完全随机地模拟剩下的棋局,而是参照了之前的棋谱用落子选择器找出最有可能的几个点,保证

从效果上来看,估算胜率的效果其实非常好。而且我认为,这样的判断方法是本质的。

为什么?首先要明确,虽然理论上来说,某一个局面下,要么是黑方必胜,要么是白方必胜。然而,由于围棋事实上无法被穷举,只能退而求其次估算概率,或者像人类棋手一样估算双方相差的目数。然而,在很多情形下,相差多少目数是没有意义的。

举个例子(此处应该有图),黑方确定目数70目,没有潜力。白方确定目数40目,有一块40目潜力的大空。如果黑方立即打入并活出,则40目的潜力只能转化成10目的实地,黑方获胜。如果黑方打入失败,则白棋40目大空围成,白方获胜。黑棋也可以选择保守的浅消,则白方的40目潜力大约能转换为25目实地。这个局面下,如果选择浅消,虽然最后差距会缩小,然而其实胜机也很少。很遗憾,这种局面下,职业棋手很难准确估算打入成活的概率,然而AlphaGo可以。于是心存幻想的人类棋手觉得落后不多,而打入无成算,选择浅消白棋大空,结果白方40目的潜力转化成25目实地,黑棋盘面仅多5目,从而落败。阿尔法狗估算出选择打入的胜率是40%,而选择浅消胜率仅为25%,于是毅然选择打入。不论最后胜负如何,选择打入显然是更好的策略。

换句话说,只“领先两目”而胜率80%,和“领先五目”而胜率70%,其实是前者优势更大,然而人类会认为后者优势更大。这或许是人类棋手的命门所在。

可叹的是,人类不可能通过大量随机采样来估算胜率。

AlphaGo 的“前世今生”

最佳答案1996 年 2 月,在美国费城举行了一项别开生面的国际象棋比赛,报名参加比赛者包括了“深蓝”计算机 和 当时世界棋王 卡斯帕罗夫。

比赛最后一天,世界棋王卡斯帕罗夫对垒“深蓝”计算机。在这场人机对弈的6局比赛中,棋王卡斯帕罗夫以 4:2 战胜计算机“深蓝”,获得 40 万美元高额奖金。人胜计算机,首次国际象棋人机大战落下帷幕。比赛在 2 月 17 日结束。其後研究小组把深蓝加以改良。

次年,也就是1997 年 5 月 11 日,在人与计算机之间挑战赛的历史上可以说是历史性的一天。

计算机在正常时限的比赛中首次击败了等级分排名世界第一的棋手。加里·卡斯帕罗夫以 2.5:3.5 (1胜2负3平)输给 IBM 的计算机程序 “深蓝”。机器的胜利标志着国际象棋历史的新时代。

其中,比赛的转折点出现在第二局。

卡斯帕罗夫第一局获胜,感觉很好。但在第二局中,双方却打得不可开交。在第 36 步棋时,电脑的做法让卡斯帕罗夫不寒而栗。在当时的情况下,几乎所有顶尖国际象棋程序都会攻击卡斯帕罗夫暴露在外的皇后,但深蓝却走出了一步更为狡猾的棋,最终的效果也更好。这令卡斯帕罗夫对电脑另眼相看。

对卡斯帕罗夫和所有旁观者来说,深蓝突然不再像电脑一样下棋(它顶住诱惑,没有攻击皇后),反而采取了只有最聪明的人类大师级选手才有可能使用的策略。通过在卡斯帕罗夫面前深藏不漏,IBM成功让人类低估了它的水平。

他的斗志和体力在随后3局被拖垮,在决胜局中,仅 19 步就宣布放弃。

后来,IBM拒绝了卡斯帕罗夫的再战请求,拆卸了“深蓝”。卡斯帕罗夫虽然后来多次挑战电脑战平,却无法找“深蓝”“复仇”,留下永久的遗憾。

在今天看来,“深蓝”还算不上智能,它主要依靠强大的计算能力穷举所有路数来选择最佳策略:“深蓝”靠硬算可以预判 12 步,卡斯帕罗夫可以预判 10 步,两者高下立现。

在 AlphaGo 诞生之前,计算机在除围棋之外,几乎所有棋类游戏上战胜了人类,唯独围棋没有被攻克,为什么呢?

围棋游戏只有两个非常简单的规则,而其复杂性却是难以想象的,一共有 10 的 170 次方种可能性,这个数字之大,以至于用当今世界最强大的计算系统,算几十年也算不完,是没有办法穷举出围棋所有的可能结果的。所以,计算机需要一种更加聪明的方法。

直到 2016 年,AlphaGo 第一版发表在了 Nature 自然杂志上,这可是牛逼得不要不要的期刊。

而刚过去一年,Google DeepMind 又在 Nature 上发表了一篇 AlphaGo 的改进版——AlphaGo Zero,同样的围棋 AI,竟然在自然杂志上发了两次!可见他们的实力!

AlphaGo 战胜过欧洲冠军樊麾,韩国九段棋手李世石,而后又赢了世界冠军柯洁,种种迹象表明,人类已经失守最拿手的围棋了。这些围棋高手一个个都表示 AlphaGo 走到了他们想不到的地方,战胜了人类的生物极限。那 AlphaGo 又是怎么在策略上战胜人类的呢?很简单,它会做计划。

阿尔法狗(AlphaGo)是通过两个不同神经网络合作来改进下棋。这就像有两个导师,每个都是多层神经网络。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。

导师1号:策略网络(Policy network)

AlphaGo 的第一个神经网络大脑是“策略网络(Policy Network)”,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

AlphaGo 团队首先利用几万局专业棋手对局的棋谱来训练系统,得到初步的“策略网络”。训练“策略网络”时,采用“深度学习”算法,基于全局特征和深度卷积网络 (CNN) 来训练,其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其它空地上的落子概率。

接下来,AlphaGo 采用左右互搏的模式,不同版本的 AlphaGo 相互之间下了 3000 万盘棋,利用人工智能中的“深度增强学习”算法,利用每盘棋的胜负来学习,不断优化和升级“策略网络”,同时建立了一个可以对当前局面估计白棋和黑棋胜率的“价值网络”。

导师2号:价值网络(Value network)

AlphaGo 的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这个局面评估器就是 “价值网络(Value Network)” ,通过整体局面判断来辅助落子选择器。

然后,AlphaGo 通过吸收人类 几千年 来优秀的棋谱,不断学习优化 策略网络 和 价值网络,从而战胜了欧洲冠军樊麾,韩国九段棋手李世石,而后又赢了世界冠军柯洁。

实际对局时,AlphaGo 通过“蒙特卡罗树搜索”来管理整个对弈的搜索过程。

首先,通过“策略网络”,AlphaGo 可以优先搜索本方最有可能落子的点(通常低于10个)。对每种可能再通过“估值网络”评估胜率,分析需要更进一步展开搜索和演算的局面。综合这几种工具,辅以超级强大的并行运算能力,AlphaGo 在推演棋局变化和寻找妙招方面的能力,已经远超人类棋手。

根据资料,最高配置的 AlphaGo 分布式版本,配置了 1920 个 CPU 和 280 个 GPU,同时可以跑 64 个搜索线程,这样的计算就好像有几十个九段高手同时在想棋,还有几十个三段棋手帮着把一些难以判断的局面直接下到最后,拿出结论,某一位人类棋手要与对抗,确实难以企及。

但是,这并不是重点。

终于说到重点了~~

Zero 英文意思是:零。除了围棋最基本规则(棋盘的几何学定义,轮流落子规则,终局输赢计算,打劫等),它就是一张白纸。放弃参考任何人类棋谱,完全自我学习。

如果你和一个有人类老师的 AlphaGo 交手,那可能还会在它背后看到人类下棋的影子。但是 AlphaGo Zero,完全是一个无师自通的家伙,和它下棋,你可能闻到很浓烈的机械味。但从另一方面想,这样的 AlphaGo 打破了数千年来人类下棋思维的限制,探索了人类想不到的下棋境界,学会了一个崭新的下棋方式。

仅仅经过 3 天的训练后,这套系统已经可以击败 AlphaGo Lee,也就是击败韩国顶尖棋手李世石的那套系统,而且比分高达100:0。经过 40 天训练后,它总计运行了大约 2900 万次自我对弈,使得 AlphaGo Zero 击败 AlphaGo Master,也就是击败世界冠军柯洁的系统,比分为 89:11。要知道职业围棋选手一生中的正式比赛也就一千多局, 而 AlphaGo Zero 却进行了 2900 万次对局。

在技术层面来说,AlphaGo Zero 使用的不再是之前提到的两套神经网络系统,而是将它们融合成一个神经网络系统,这样做能更有效利用资源,学习效果更好。其关键在于采用了新的 Reinforcement Learning(强化学习) ,并给该算法带了新的发展。

而且,它不再仅仅使用 GPU,转而添加了自家的专门为机器学习打造的 TPU,而且使用的硬件个数也在逐步降低,然而学习的效果却不断上升。在短短 40 天没有老师教的训练中,AlphaGo Zero 超越了他所有的前辈,在这个时候,我相信它真正做到了在围棋场上无人能敌了。

最后,正如 AlphaGo 之父 David Silver 所说,一个无师自通 AlphaGo 的产生,并不仅仅意味着我们的 AI 能在围棋场上战胜人类,放眼未来,它还意味着,在更多方面,我们能用这样的 AI 创造出更多人类历史上的新篇章。

围棋场上,无论谁赢,最终获胜的都是人类自己。

今天的内容先分享到这里了,读完本文《alphago50盘棋谱讲解》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。