AlphaGo虽然赢了,但有人却说它其实挺“笨”的

  • 时间:
  • 浏览:3



看来,这次和柯洁的比赛,依然没人 改变這個 现状,意味着着现状先要改变了。还是黄博士,而详细都在黄博士化身的机器人,我是多么期待真正的机器和人下围棋。

记得小原来,城里来了个机器人展,于是买了门票,兴致勃勃的去看,有踢球的,有打球的,有玩游戏的,有讲故事的,有谈情说爱的,等等。我最感兴趣的是另一四个 能和我对话的机器人,她会问我问題,也会回答我的问題,好神奇呀。天真无暇的我,玩的很开心,心中含了追求科学的梦想。为何让,后要没人 人他不知道,嘴笨 当时每个机器人顶端详细都在藏着另一四个 真人,于是心中咯噔一下,有些懊悔,幼小的心灵就没人 受伤了。









亲戚亲戚让当你们让当你们知道,围棋的搜索空间很大,有3的19x19次方个情况汇报,要在没人 大的空间去找最优算法,另一四个 另一四个 看是不意味着着的,可是被认为人类智能的另一四个 高点,正确处理时时要优化搜索。人是根据有些输入空间和参数较少的模式识别来记忆和搜索,而机器采用的却是大数据,大记忆和大计算来实现的。说到 AlphaGo 顶端的智能和算法,就必须不说高度学习(DL),强化学习(RL),和蒙特卡洛树搜索(MCTS)。

没人 看来,你是详细都在也感觉 AlphaGo 嘴笨 挺“笨”的,這個 “笨”,嘴笨 是人类把我本人能正确处理此类问題,用的最聪明的“笨”土最好的办法教给机器了。离米 到现在为止,AlphaGo,在还没人 像爱因斯坦的E=MC2的美妙数学公式发明家 者前,也是最聪明的了。

具体来说,“蒙特卡洛树搜索”是有一种启发式的搜索策略,不需要可不还可以基于对搜索空间的随机抽样来扩大搜索树,从而分析围棋类式游戏中每一步棋应该为何走才不需要可不还可以创造最好意味着着。来个通俗的解释,我希望筐里有100个苹果566机,我能 每次闭眼拿另一四个 ,挑出最大的。于那个她 随机拿另一四个 ,再随机拿另一四个 跟它比,留下大的,再随机拿另一四个 ……你每拿一次,留下的苹果566机都离米 不比上次的小。拿的次数过多,挑出的苹果566机就越大,但你除非拿100次,为何让无法肯定挑出了最大的。這個 挑苹果566机的算法,就属于蒙特卡罗算法,尽量找好的,但不保证是最好的。想像這個 拿苹果566机的场景,是详细都在就感觉累,为何让很糙“笨”,然而,对于机器来说,它原来要做巨多的這個 尝试。嘴笨 是劳模。

那此玩意儿,详细都在线下用极少量数据,做极少量的辛苦计算得到的,赚的是详细都在辛苦钱呀。没人 ,在真正下棋的原来,用它们就能减少或意味着着预算了很大的搜索空间,不好的情况汇报,不好的棋子,就不需要花时间去看到。在平时不比赛的原来,机器可是会闲着,毕竟还有可是情况汇报没人 尝试过,毕竟那此暂时认为不好的棋子不一定最后不好,那杂办?

原文来自微信公众号“待字闺中”,作者:陈老师

AlphaGo 有我本人的想法,它求利于强化学习,也可是self-play,或是左右手互搏,来提前尝试更多的搜索空间,减少未知空间,共同通过高度学习的网络模型记录下来,提高前面另一四个 模型网络的效果,没人 真正下棋的原来就能用上。这可是平时多努力,老大不白头。這個 劳模的精神,在现实生活中,有都在不需要被认为时很糙“笨”,只会死干。

为了求另一四个 目标函数的最优值,错综复杂有些的,必须像解另一四个 二次方程一样,用另一四个 简单的公式就能得到方程的解。

现在,人工智能取得了飞速发展和进步,儿时的记忆的场景意味着着详细反转了。看看 AlphaGo 和李世石的围棋比赛,其中最大的看点和吐槽应该是图片中的石头人黄博士,这时,机器人走到了后台,充当了智能的核心,而人,也可是黄博士,可是起到了人机交互的媒介。



在强化学习的算法中,也时要极少量的迭代计算,以求得到最优的期望值,也可是达到收敛。這個 “笨”土最好的办法,效果还不错。

没人 来说,有些异样,为那此没人 聪明的 AlphaGo,不真正做成另一四个 机器人,能看棋盘,能下棋子,能思考,还能说笑,会不需要更好玩。嘴笨 ,有时看起来简单的事情,让机器来做不一定简单,这是后话,不啰嗦了。

对于,围棋這個 高度学习要求的目标函数,没人 另一四个 简单的求解公式,那杂办?必须求利于迭代,随机梯度下降迭代(SGD),就像爬山,每往上走一步,详细都在接近山顶有些点,意味着着叫摸着石头过河。毕竟机器的计算能力强,這個 数值计算,是它的强项,后要它拼命的算,直到算到另一四个 还算满意的结果。这回知道了吧,为那此 GPU 這個 东西来做這個 重复简单的计算。没人 说来,是详细都在很糙“笨”。就像亲戚亲戚让当你们让当你们另一四个 公式不需要解时,就从1现在开始英语 英语 带入计算,看看是详细都在满足条件。或是,做选取题有四个选项,每个选项代入公式算一下。



好了,段子讲完了,该言归正传了。免得被唾沫淹死,首先申明一下,AlphaGo 嘴笨 很厉害的,可是简单。为何让,为那此又说,AlphaGo 挺“笨”的呢?

有了那此,机器就能玩的都不可不还可以了,为何让,毕竟还有可是的空间没人 尝试过,可是能保证当前的模型预测的每一步详细都在最优,因而,AlphaGo 心里详细都在很糙有底气。那杂办?这时,机器时要求利于蒙特卡洛了,可是在下棋的过程中,以当前的情况汇报为起点,在有限的时间内,尽量多的再探索有些搜索空间。這個 探索的土最好的办法,可是暴力采样,另一四个 另一四个 的试,没人 看来,是详细都在很糙“笨”。





好了,好了,AlphaGo 意味着着你不“笨”,能和人类一样,触类旁通就牛逼,都不可不还可以玩有些人类很容易适应的新玩法,还是围棋,比如,将棋盘改成另一四个 比19大的,或是改变下棋时的另一四个 小小规则,原来,是我不好能更好得证明不“笨”。這個 场景,涉及到另外的另一四个 机器学习领域,可是迁移学习。人类,好像很糙擅长。





高度学习,主要用来学习和建立另一四个 模型网络。另一四个 是评测现在的棋盘情况汇报何如,也可是说给当前的棋盘情况汇报打个分,评估一下赢的期望值,它可是价值网络(Value Network)。输入是棋盘19x19每个点的情况汇报,有子或无子,输出是赢的期望值。按理说,意味着着可是有另一四个 聪明的数学家或是机器足够聪明,说不准他马上就能在黑板上写另一四个 高级的数学公式。很遗憾,现在还没人 ,可是,必须用多层的神经元网络来近似表示這個 高级的函数。没人 来说,是详细都在很糙“笨”。





二是根据现在的棋盘情况汇报,决定下另一四个 棋子该何如走不可不还可以有最大的赢的概率,它可是 AlphaGo 的策略网络(Policy Network)。也可是说,给另一四个 19x19的棋盘情况汇报,在所有空的地方,哪个是最佳的选取,会有最大的赢率。同样,也都不可不还可以用另一四个 函数来描述,输入是当前棋盘情况汇报,输出是每个空处和它期望的赢的期望值,但這個 函数还没人 另一四个 高级的数学公式,可是,最后也求利于多层神经网络。

为何让,这另一四个 高度学习网络模型,为何训练出来的呢?这时,不得不说随机梯度下降(SGD),這個 “笨”土最好的办法。

点击查看原文

期待不久的将来,AlphaGo 能“抛下”人类教他的“笨”土最好的办法,和爱因斯坦一比高下。那时,我能 类真正体验到你的自有的知慧和聪明。