当前位置: 主页 > 人工智能

人工智能人机对弈-人机对弈

发布时间:2023-03-11 21:06   浏览次数:次   作者:佚名

|编者按

人工智能不仅仅是一次技术革命,它将使经济、产业、社会乃至人类生活产生深刻的变革。本文旨在通过人工智能发展史上三次著名的人机对弈为主线,梳理人工智能技术发展的脉络,分析目前人工智能技术的挑战,并对未来人工智能技术发展方向作出展望。

1

什么是人工智能?

人工智能缘起于1956年8月美国东北部小镇汉诺威达特茅斯学院的人工智能夏季研讨会,本次会议由东道主约翰·麦卡锡、当时在哈佛大学的马文·明斯基、IBM的纳撒尼尔·罗切斯特及信息论的创始人克劳德·香农等4人发起。会议第一次提出人工智能(Artificial Intelligence,简称AI)的概念及其需要研究的七个领域:(1) 自动计算机;(2) 编程语言;(3) 神经网络;(4) 计算规模的理论;(5) 自我学习;(6) 抽象能力;(7) 顿悟与创新。

人机对弈 图片_人机对弈_人工智能人机对弈

人工智能经历了60多年螺旋式的发展与演进,如今已成为实际应用众多、科研活跃、投资热捧的领域。人工智能研究的范围包括基于搜索的问题求解、知识的表达推理与规划、机器学习、智能应用等诸多子领域。由于人工智能研究内容的广泛性,因此对于人工智能的定义一直存在争议。目前业界比较认可的定义来自加州伯克利的斯图尔特·罗素与谷歌研发总监彼特·诺维格合著的人工智能经典著作——《人工智能:一种现代的方法》,该书将人工智能定义为:人工智能是能感知环境,并为获得最佳结果,采取理性行动的智能体。

人工智能从发展的阶段而言,可以按照其不同层级,将人工智能分为弱人工智能(如苹果公司的Siri)、强人工智能和超级人工智能(即智能体在所有领域都比最聪明的人类还要聪明得多)。从目前而言,超级人工智能还只是存在于电影或小说中的场景而已。

2

从“三次人机对弈”看人工智能的前世今生

棋类游戏自古以来就是人类智慧的象征,受众面广泛,而且棋类游戏规则清晰,胜负容易评估,因此每一次人机对弈都会引起公众的极大关注,并推动人工智能技术的快速发展。

2.1 西洋跳棋AI击败人类选手

人机对弈 图片_人工智能人机对弈_人机对弈

早在1962年,当时就职于IBM的阿瑟·萨缪尔在IBM 7090晶体管计算机上(内存仅为32k)研制出了西洋跳棋(Checkers)AI程序,并击败了当时全美最强的西洋棋选手之一的罗伯特·尼雷,引起了轰动。阿瑟·萨缪尔在西洋跳棋AI程序研制过程中,第一次提出了“机器学习”的概念,即不需要显式地编程,让机器具有学习的能力。因此,阿瑟·萨缪尔被称为机器学习之父。

西洋跳棋AI程序的核心技术是通过自我对弈来学习评价函数,大致原理是利用两个副本进行对弈,学习线性评价函数每个特征的权重,其中一个副本Beta始终使用固定的评价函数,另一个副本Alpha则通过与使用极小极大搜索(minimax search)算法作对比来学习特征的权重。事实上,AlphaGo围棋AI算法和当今深度学习领域非常火爆的生成式对抗网络(GAN)都采用了类似的思想。虽然西洋跳棋AI程序使用了相当多的领域知识,以及一些简化的假设,但不可否认的是,萨缪尔的工作是早期AI的一个里程碑,其工作中强化学习与对抗学习的思想至今仍然是AI程序的核心算法。

2.2 IBM深蓝战胜国际象棋世界冠军

人工智能人机对弈_人机对弈 图片_人机对弈

时隔35年的1997年5月,IBM深蓝以 3.5:2.5战胜了人类国际象棋(Chess)世界冠军加里·卡斯帕罗夫,成为人工智能发展史上的又一个里程碑。

深蓝是IBM一台超级计算机,在1秒钟内可算两亿步棋。然而,国际象棋按照一盘棋平均走80步计算,每步棋可能的落子位置为35个,则总状态数约为10的120次方,若仅用蛮力搜索,即使作为超级计算机的深蓝都无法在合理的时间内完成走棋任务。

因此,深蓝在软件设计上采用了知识库结合搜索的方法。一方面,深蓝存储了100 年来几乎所有国际特级大师的开局和残局下法,利用知识库的思想帮助程序节省时间并得出合理的棋步。另一方面,深蓝采用的是α-β剪枝搜索算法,并采用规则的方法对棋局进行评价,大致思路是根据棋子的重要程度、棋子的位子、棋子之间的关系对棋局进行评价,但这些思路并没有超越萨缪尔的工作。不过,值得一提的是,深蓝在硬件上将通用处理器和象棋加速芯片相结合,提高了计算速度。深蓝国际象棋AI程序汇聚了诸多人类国际象棋大师的知识与智慧人工智能人机对弈,因此可以被认为是知识工程在计算机棋类博弈的经典应用。但是,深蓝国际象棋AI的核心技术依然被认为是领域相关的,缺乏通用性。

人工智能的第二次浪潮(1976年-2006年)代表性成果之一就是知识工程。知识工程的典型应用就是各种专家系统,比如医学专家系统、工程学专家系统等。然而,知识工程也有弊端,主要表现在知识的总结与获取很难,另外有些领域的专家不愿意分享他们的经验。因此,人工智能的第二次浪潮的另一个重要成果就是将各种机器学习算法引入人工智能,让机器从数据中自动学习,获得知识。

这段时期,机器学习的各大学派纷纷提出了各类机器学习算法,是知识工程与各类机器学习方法群雄逐鹿的时代。

2.3 AlphaGo战胜围棋世界冠军李世石

人机对弈 图片_人机对弈_人工智能人机对弈

2016年3月人工智能人机对弈,谷歌旗下的DeepMind公司的AlphaGo围棋AI战胜了韩国围棋世界冠军九段棋手李世石,再一次掀起了人工智能的浪潮。

围棋一直被认为是最复杂的棋类博弈,对AI来讲是经典博弈中最具挑战的棋类。围棋按照一盘棋平均走150步计算,每步棋可能的落子位置为250个,则总状态数约为10的150次方,据说围棋的计算复杂度已超过宇宙中原子的总数。

AlphaGo围棋的核心技术是将深度学习、强化学习和蒙特卡洛树搜索有机整合起来,使其既具有围棋的局部战斗能力,更重要的是还具备了围棋的全局观。总体而言,AlphaGo具有两套深度神经网络:即策略网络(Policy network)与价值网络(Value network)。策略网络选择下棋步法,即给定当前的局面,预测下一步如何走棋;价值网络则评估当前局面,即给定当前局面,估计是白方胜还是黑方胜。

AlphaGo首先从专业棋手的三千万手棋,通过监督学习的方式,训练深度卷积神经网络,学习人类围棋高手下棋的方式,这个策略网络称为“监督学习策略网络”;接着,AlphaGo让两个训练好的监督学习策略网络对弈,从而训练一个更强的策略网络,称为“强化学习策略网络”。AlphaGo再利用强化学习策略网络对弈的数据作为输入,通过深度卷积神经网络训练价值网络。在对弈过程中,AlphaGo采用蒙特卡洛模拟方法,针对当前局面,根据策略网络的建议,有限制地向前模拟展开行为树,并用估值网络对每种走法的胜率进行估计,在展开足够的搜索后选择最优的下一手棋。

因此,AlphaGo本质上是在蒙特卡洛树搜索框架下,整合了深度学习和强化学习技术并将线下深度学习与在线高效搜索相结合,从而获取围棋问题的有效解法。虽然,AlphaGo只解决了计算机围棋的问题,但它在算法上比深蓝具有通用性,其思想可以被应用在多个领域,比如DeepMind最新的研究是让AI能和人类玩家一起玩星际争霸这类电子游戏,而这类电子游戏是属于不完全信息博弈,因此比围棋AI更具挑战。

人工智能的第三次浪潮(2006年-现在)代表性成果就是深度学习。2006年杰夫·辛顿和他的学生在《科学》杂志上发表了一篇关于应用神经网络进行数据降维的文章,其核心是提出了深度神经网络具有优异的特征学习能力,并可采用“逐层预训练”的策略对其有效训练。2015年谷歌DeepMind公司研发了深度学习结合强化学习的“深度强化学习”技术,该技术能够学会玩Atari视频游戏,并达到了可与人类匹敌的水平。事实上,“深度强化学习”技术就是AlphaGo的核心技术。

3

人工智能技术的挑战与展望

深度学习技术由于能够自动从数据中学习复杂的特征,因此被认为是现代人工智能最重要、应用最广泛的技术。但是,深度学习的技术进展遇到如下挑战:比如目前深度学习成果主要依赖于大规模有标签数据、深度学习几乎是个黑箱模型,可解释性不强、深度学习依然无法解决不确定的推理问题等等。因此,从人工智能技术发展的路径上,近年来无监督的深度学习、迁移学习、深度强化学习和贝叶斯深度学习等技术成为迈向强人工智能的重要途径。

人机对弈_人机对弈 图片_人工智能人机对弈

目前,深度学习在复杂特征空间上泛化能力依赖于带有标签信息的大规模数据样本,因此无监督的深度学习技术将是未来深度学习发展的重要方向。就如深度学习三巨头之一的Yann LeCun的观点:AI最大的局限是没有人类的常识,而无监督学习是突破AI局限的关键。

所谓迁移学习,就是能让现有的模型算法稍加调整即可应用于一个新的领域或功能的机器学习技术。迁移学习的目标是用已有的知识来解决目标领域中仅有少量有标签样本数据,甚至没有数据的学习问题,让机器赋予人类举一反三的智慧。前百度首席科学家吴恩达认为,迁移学习将引领下一波人工智能技术商业化的浪潮。

人工智能领域,感知、规划、推理、决策的能力是衡量智能的指标,深度学习使得AI的感知能力(视觉、听觉等)得到了巨大的提升,但通过与环境交互,并作出最优的决策是目前深度学习所不能解决的问题。强化学习则可不断与环境交互,以试错的学习方式获得最优决策。因此,将深度学习与强化学习有机融合的“深度强化学习”可以让智能体既具有感知能力,又具有理性行动能力。该技术是DeepMind公司近年来重点研究和应用的核心技术。

贝叶斯学习指的是具有在小样本数据上学习与推理的能力。因此,将深度学习与贝叶斯学习结合起来的“贝叶斯深度学习”可以使智能体既具有小样本学习和推理能力,又有深度学习非常强大的拟合能力,即让智能体既有感知能力又具备推理能力。

本文作者认为若能将深度学习、贝叶斯学习和强化学习有机融合,让AI具备感知、推理、决策和理性行动能力,将是实现强人工智能的可能途径。此外,本文作者认为人工智能的某些应用还需要解决其安全性、鲁棒性(robust)和人机交互问题,比如自动驾驶AI、自动手术AI、基于AI的对冲基金等场景。

4

结语

虽然人工智能在很多领域表现出色,甚至超过了人类的表现,人工智能已无处不在,但这并不意味着人工智能已无所不能。从技术角度来讲,目前的人工智能还属于弱人工智能范畴,AI依然没有常识、没有自我意识、没有真正的情感,不具备抽象能力。科幻片中的强人工智能离我们依然遥远,就如美国加州伯克利大学人工智能与机器学习大师迈克尔·乔丹的观点:在迈向强人工智能的路上,我们才刚刚起步。

但是,无需质疑的是人工智能时代已经到来,人工智能技术将深刻地影响人类生活、社会经济、法律与伦理。我们准备好迎接这个人机共舞的时代了吗?

人机对弈 图片_人工智能人机对弈_人机对弈

作者简介

人机对弈_人机对弈 图片_人工智能人机对弈

人工智能人机对弈_人机对弈_人机对弈 图片

陈敏刚,副研究员,博士毕业于上海交通大学计算机系,国家信标委大数据工作组成员,在上海科学院所属上海计算机软件技术开发中心/上海市计算机软件评测重点实验室从事新一代信息技术研究工作。