漫威电影中的机器学习

doi:10.11959/j.issn.2096-0271.2022023-1

漫威电影中的机器学习

王元卓, 沈英汉, 陆源

中国科学院计算技术研究所

Online: 2022-03-15

作者简介 About authors

王元卓（1978-），男，博士，中国科学院计算技术研究所研究员、博士生导师，中科大数据研究院院长，中国科普作家协会副理事长，中国计算机学会科学普及工作委员会主任，主要研究方向为大数据与人工智能

沈英汉（1995-），男，中国科学院计算技术研究所博士生，主要研究方向为社交知识图谱

陆源（1990-），男，现就职于竞技世界（北京）网络技术有限公司，从事数据产品工作，主要研究方向为大数据与社交网络。热心科普创作，科普畅销书《科幻电影中的科学：科学家奶爸的宇宙手绘》《科幻电影中的科学：科学家奶爸的AI手绘》作者之一

PDF (854KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王元卓, 沈英汉, 陆源. 漫威电影中的机器学习. 大数据[J], 2022, 8(2): 193-196 DOI:10.11959/j.issn.2096-0271.2022023-1

. . Big data research[J], 2022, 8(2): 193-196 DOI:10.11959/j.issn.2096-0271.2022023-1

在《美国队长3：内战》中，钢铁侠与美国队长因观念冲突导致了内战，钢铁侠先不断挨揍以积累大量美国队长的战斗数据，再将这些数据进行计算，分析美国队长的出拳规律，从而扭转局势。这一针对对战数据进行的分析归功于钢铁侠强大的机器学习能力，如图1所示。

那么，什么是机器学习呢？

机器学习是通过对已有数据或者经验的学习来自动改进算法性能的人工智能的重要研究方向。机器学习的目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理得出模型的过程。得出的模型能够以近似于人的方式解决很多复杂的问题。机器学习的核心是使用算法解析数据，通过一系列运算从数据或经验中学习知识，对某个任务做出决策或者预测，并对效果进行评估。

机器学习中的“训练”与“预测”的过程可以对应到人类的“归纳”和“推测”的过程。通过这样的对应，我们可以发现，机器学习的思想并不复杂，它仅仅是对人类在生活中学习成长的一个模拟。机器学习不是基于编程形成的结果，它的处理过程不是因果的逻辑，而是通过归纳思想得出的相关性结论。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 《美国队长3：内战》中的机器学习片段

机器学习的发展如图2所示。从20世纪50年代开始研究机器学习以来，不同时期的研究途径和目标并不相同，机器学习的发展可以划分为3个阶段。

第一阶段是从20世纪50年代中叶到70年代中叶，这个时期主要研究“有无知识的学习”。这个时期，由于缺乏丰富的知识，远不能实现真正的智能。最具有代表性的成果就是于1952年创建的第一个真正的机器学习程序——一个简单的棋盘游戏。此后，主要研究工作是将各领域的知识植入系统里，目的是通过机器模拟人类学习的过程。在这一研究阶段，主要用各种符号表示机器语言，科研人员将专家学者的知识加入系统里，并取得了一定的成效。

第二阶段从20世纪70年代中叶到90年代。机器学习逐渐从学习单个概念扩展到学习多个概念，开始把学习系统与各种应用结合起来，并取得很大的成功。同时，专家系统在知识获取方面的需求也极大地推动了机器学习的发展，自动知识获取成为机器学习应用的研究目标。尤其是从20世纪80年代中叶开始，机器学习已成为新的学科，它综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学等学科知识，形成了机器学习理论基础；融合各种学习方法，产生形式多样的领域应用系统研究方向。

第三阶段从21世纪初期开始，机器学习进入一个全新的阶段。随着深度学习模型和大数据的出现，机器学习成为人工智能新发展的重要方向之一。

接下来我们看看一次典型的机器学习是如何工作的。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 机器学习讲解图（选自《科幻电影中的科学：科学家奶爸的AI手绘》）

首先是选择数据。这里的数据可以分为三部分，分别是训练数据、验证数据和测试数据。有了数据后，第二步是对数据进行建模，使用训练数据构建涉及相关特征的模型。得到数据之后，第三步就是要验证模型，用之前准备的验证数据验证建立的模型效果。第四步是调试模型。为了提升模型的性能，使用更多的数据、不同的特征来调整参数，这也是最耗时耗力的一步。模型准备完毕后，第五步是使用模型。部署训练好的模型，对新的数据进行预测。最后需要测试模型，使用测试数据验证模型，并评估模型的性能。

几十年来，机器学习的方法种类很多，常见的也是经典的3类方法包括有监督学习、无监督学习和强化学习。

所谓有监督学习，就是我们常说的分类。也就是通过已有的信息获得一个最优的处理模式，再利用这个模式将所有输入的信息处理成输出信息，计算机通过对输出信息的简单判断，将已有信息分成不同的种类，这样人工智能就有了对未知数据进行分类的能力。比如家长经常教育孩子苹果是能吃的，石头是不能吃的。苹果、石头就是输入信息，而家长给出的判断——能吃和不能吃，就是相应的输出信息。当孩子的认识能力达到一定水平时，就会逐步形成一种模式，遇到类似石头的东西就知道不能吃。有监督学习可以说是通过有标签的数据结合标定结果的直接反馈来预测结果或未来的。

与有监督学习不同，无监督学习并没有放置任何可以参考的样本或者已经分类的参考目标，给定的数据集也没有“正确答案”，计算机需要直接对已有数据建立模型，挖掘出潜在的结构。也许有人会问，在没有样本的情况下，计算机如何自己建立模型呢？其实在人类思维过程中，无监督学习是时常发生的。比如在我们对音乐并不十分了解的情况下，如不知道什么是古典音乐，什么是摇滚乐，能自发地将其进行分类，这就是无监督学习。虽然没有人给我们提供模型将听到的音乐进行分类，但是我们依然能够将不同的音乐区分开。当我们根据某些事物的特性将其归为一类时，使用的就是无监督学习中的聚类分析法。

俗话说“物以类聚”，所谓的类就是具有相似元素的事物的集合。聚类分析的目的是在相似的基础上收集数据进行分类。聚类分析的对象被称为描述数据，通过衡量它与不同数据源之间的相似性，就能把不同的数据归到不同的类别。比如我们找到一种植物，并发现它具有青菜的特征，只是颜色不一样，那么我们就可以将其归类到蔬菜中。

还有一类机器学习方法我们称之为强化学习。AI在自己所属的环境中，一边试错一边寻找最合适行动的过程被叫作强化学习。首先要清楚地表现出自己的行动和状况；其次要认识到在什么样的状况下采取什么样的行动，在该环境下会产生什么样的结果；然后从中学习并采取最优行动。学习的线索是获得回报，回报是相对结果的评价值。比如，在格斗游戏中让人类玩家和AI对战。最开始AI会毫无章法地出招，回报是人类玩家的体力有一定程度的消耗。这最初可能无法对玩家造成伤害，但在反复对战的过程中，偶尔会对玩家造成伤害，那么AI就会记住这些场景。通过不断地对战，AI就会学习在什么样的状况下采取什么招式可以削弱对方的体力。

机器学习有巨大的潜力改变和改善世界，我们正朝着真正的人工智能迈进。比如目前火热研发中的无人驾驶汽车，通过机器学习可以实现自动导航，并保证安全行驶。一个例子是交通标志传感器，它使用监督学习算法识别和解析交通标志，并将它们与一组有标记的标准标志进行比较。这样，汽车就能看到停车标志，并认识到它实际上意味着停车，而不是转弯、单向行驶或人行横道等。