
如果AlphaGo建立了AI的“至高无上”,那么知道如何思考自己的MuZero可能会在更多领域建立“霸权”。 谷歌母公司Alphabet的子公司DeepMind在本月取得了重大进展。 首先,在月初启动了蛋白质结构预测AI-AlphaFold 2。 这家AI领导了CASP竞赛,解决了困扰学术界50年的问题:
访问:
JD PLUS会员元旦促销:视频双重会员148元可获30元红包,不设门槛
阿里云“爆炸性特价”主题活动-云服务器低至0.55折96元/年
生物学家安德烈·卢帕斯(Andrei Lupas)自己度过了十年时间,用尽了各种实验方法,折叠后仍无法弄清蛋白质的形状,但是使用AlphaFold 2,他在半小时内就得到了答案。
然后,在月底,DeepMind发表了一篇论文,在《自然》杂志上介绍了“高级版本的AlphaGo” -MuZero。 简而言之,MuZero更具“通用性”。 它精通国际象棋,围棋和将棋,并且可以在数十种Atari游戏中完全超越过去的AI算法和人类。 但是,更具革命性的是,与以前的游戏不同,MuZero在下棋和游戏之前并不了解游戏规则。 这完全是通过自己的实验和探索来了解董事会和游戏的规则并形成自己的决定。 换句话说,人工智能将“利用大脑”。
MuZero就像Netflix热门电视剧《皇后棋》中的贝丝·哈蒙一样。 在不了解国际象棋规则的情况下,穆泽罗通过一些观察“画”了他的内心棋盘,并反复重复游戏。 象棋游戏增强了人们的直觉,并最终立于不败之地。
如果您不知道规则怎么下棋?
2016年,AlphaGo诞生,以4:1的优势击败了韩国顶级国际象棋选手Lee Sedol,并在2017年的Wuzhen Go峰会上击败了世界排名第一的国际象棋棋手Ke Jie。中国围棋协会甚至立即授予AlphaGo九段冠军的头衔。专业围棋。
AlphaGo依靠DeepMind输入的国际象棋专家数据集,然后其继任者AlphaGo Zero开始摆脱对“人类数据”的依赖,并开始通过多个自玩游戏累积所需的数据。 AlphaZero于2018年底发布,在前两个基础上进行迭代。 除了围棋之外,它还学习了将棋和象棋。 令人惊讶的是,AlphaZero从第一次看棋盘到成为世界一流的棋大师仅用了24小时。
“但是你不能只是像下棋一样前瞻。你必须学习世界的运转方式。” DeepMind的首席研究科学家David Silver告诉《连线》。 根据这个想法,他们决定不告诉AI如何提前获胜。 “这是我们第一次建立这样的系统。”
上面提到的“ Alpha”家族最早需要“人类数据”,“领域知识”和“游戏规则”,并且至少还依赖于“游戏规则”。 新推出的MuZero没有这些知识储备,就像被蒙住双眼下棋,用后手玩游戏一样。
“阿尔法”家族也至少需要依靠“游戏规则”,而刚刚推出的MuZero却没有知识储备| DeepMind
由于MuZero甚至都不知道如何下棋,它如何学习世界的运转方式? 让我们以AlphaZero为例。 由于它已经知道游戏规则,因此知道动作后的下一步动作。 它可以在深度学习中使用“蒙特卡洛树搜索”(MCTS)评估不同的差异。 可以下棋并从中选择最佳棋步。 在此过程中,AlphaZero仅需要使用神经网络“预测网络”。
而且MuZero不了解现有规则,因此他只能从头开始构建内部模型,以形成自己对游戏的理解。
首先,MuZero将使用“表示网络”来收集其观察到的动作并将其转化为自己的知识;
然后,使用“预测网络”来形成策略(即最佳的“下一步”)并判断其价值(即当前决策的效果如何);
最后,使用“动态网络”来判断“上一步有多好”,收回之前做出的最佳举动,并不断改进其内部模型。
换句话说,MuZero没有特定的“行为准则”。 就像一个孩子,他会根据思考能力不断完善自己的行为准则。 在此之前,尽管“ AlphaGo”可以轻易击败人类,但它仅限于Go等专业领域,而不能“领悟”。 每次遇到新游戏时,都必须更改框架并重新学习。 掌握了“思维方式”的MuZero显然可以做更多的事情,也就是说,用途更多。
“知道雨伞可以阻止人们淋湿,比建模雨滴更有用。” DeepMind在这句话中说,对于AI来说,它们看起来越笨拙,它们就越实用。
在游戏方面,以研究AI和玩扑克而闻名的FAIR研究科学家Noam Brown评论了MuZero:“目前对游戏AI的主要批评是模型无法准确地模拟现实世界中的交互。 MuZero优雅而令人信服。 克服了这个问题(用于完美的信息游戏)。 我认为这是可以与AlphaGo和AlphaZero相比的重大突破!”
这种思维AI可以做什么?
DeepMind的研究表明,通过结合MCTS和学习的模型,MuZero无需任何基础的动态知识,就可以在各种象棋类型的精确计划任务中与AlphaZero相匹配,甚至超过了预先知道规则的Go版本AlphaZero。 。
在实验中,只要MuZero延长每个行为的时间,它的性能就会变得更好。 随着每个动作的时间从十分之一秒增加到50秒,MuZero的能力将增加1000 Elo(衡量玩家的相对技能),这基本上等同于熟练的业余玩家之间的差异与最强的职业球员的区别。
开始思考自己的MuZero就像一个人。 现实世界是混乱而复杂的,人们没有特定的手册。 他们只能通过摸摸石头,慢慢形成自己的计划能力,然后制定下一步的策略来渡河。
那么,MuZero可以做什么?
《连线》的记者提到了在生化行业做过“大事”的蛋白质结构预测AI,然后询问了MuZero的实用价值。 戴维·西尔弗(David Silver)说,MuZero已投入实际使用,以找到一种新的视频编码方法来完成视频压缩。 考虑到大量不同的视频格式和众多的压缩模式,节省5%的位已经是一项艰巨的任务。 “ Internet上的大多数数据都是视频,因此,如果您可以更有效地压缩视频,则可以节省很多钱。” 由于Google拥有世界上最大的视频共享平台YouTube,因此他们很可能将MuZero应用于该平台。
David Silver对它的创作有足够的信心| WIRED
David Silver进一步认为:“一个真正强大的系统,可以看到您所看到的一切,具有与您相同的感觉,可以帮助您实现目标。从长远来看,另一个变革性的目标(MuZero的“强化学习”理念)可以提供个性化的医疗解决方案。有一些隐私和道德问题必须解决,但它具有巨大的价值,它将改变医学的面貌和人们的生活质量。”
目前,“ Alpha系列”计划算法也已在物流和化学合成等许多实际领域中产生了影响。 但是,这些规划算法都依赖于环境的动态变化,例如游戏规则或精确的模拟器,这限制了它们在机器人技术,工业控制和智能助手中的应用。
不再遵循规则的MuZero认为,首先摸索规则,建立内部模型然后掌握它的想法显然更具延展性。 可以独立思考的AI更接近于一般AI。
“我不想为此设定时间尺度,但我想说的是人类可以实现的一切,我最终认为机器可以实现。大脑只是完成一个计算过程,我认为没有任何东西神奇。” David Silver对它的创作有足够的信心。
如果AlphaGo建立了AI的“至高无上”,那么知道如何思考自己的MuZero可能会在更多领域建立“霸权”。