清华朱军教授：机器学习未来的几大挑战与目前进展

时至今日，我们已经看到由机器学习算法支撑的非常准确的机器视觉、听觉和语音交互被应用各种产品和服务中，进而带来了AI在商业应用方面的爆炸式增长。但机器学习仍在向前发展，其尚有很大潜力等待我们挖掘，但前提是我们能够清楚了解到目前机器学习所面临的挑战。

在于10月27日由《麻省理工科技评论》、DeepTech 深科技联合主办，梅赛德斯-奔驰特别呈现的“全球科技青年论坛”上，《麻省理工科技评论》“35岁以下科技创新 35 人”（Innovators Under 35 Reunion）获得者、”清华大学计算机系教授朱军教授分享了其对于机器学习未来发展的挑战的看法。

他认为，人们现在要处理很多数据，而这些数据很显然是超过人能处理的范围，所以需要计算机，需要更加智能的能够从数据中不断学习、总结经验，不断提高性能的算法，但是，包括不确定因素、系统风险以及对数据的利用不够充分等问题正横亘在我们面前，有待人员共同解决。

图丨朱军（来源：DT君）

以下为朱军教授的演讲（经过基于愿意的删改）：

在信息时代，有很多的场景的痛点可以用计算机解决，这背后很多技术都是相通的，所以，现在很多的应用领域大家都在用机器学习，更广义来说是人工智能。

现在，机器学习或者人工智能有非常显著的进展，像大家关注的深度学习，包括图像、语音甚至自然语言的处理等等任务上都表现得非常优秀。

最近还有一些进展可以用强化学习或者决策的方法做博弈和对抗，这都是现在机器学习一些典型的进展。当时我在 CMU 做兼职教授的时候，有一次我们的系主任讲了一个观点，他说，未来机器学习会像现在的基础学科，一样成为大家的必修课。

但我觉得这个观点是对的，我们要处理很多数据，而这些数据很显然是超过人能处理的范围，所以我们需要计算机，需要更加智能的能够从数据中不断学习、总结经验，不断提高性能的算法。

今天我主要想和大家分享，机器学习发展到今天，在很多应用的情况下我们还应该思考什么样的问题，或是未来的机器学习应该解决什么问题。

首先面临的一个挑战，我们称为不确定的因素。在建一个人工智能系统的时候需要对这些不确定的因素进行建模、学习、推理，甚至最终决策。

另外一个挑战在于，现在人工智能的解决方案或者人工智能的系统还面临着一些风险，可能从算法的角度或者系统的角度。从算法来看，对一个表现良好的深度神经网络可以在这个图像上加一些噪声，但这个噪声带来的后果是可以误导神经网络的，并以一个非常高的执行度给出一个错误答案。

这些风险很难纠正，除非你有一些其他的信息或者人在中间帮助纠正。

图丨朱军（来源：DT君）

还有很多其他的展示，在系统级别上，比如在 351 晚会上展示人脸识别的系统或者无人驾驶车里的激光雷达。如果大家想破坏它的话，实际有很多的途径，这就给系统或者算法的安全提出了新的挑战。

还有对数据的利用。在数字世界里，我们有大量的数据可能没有标注或者有高噪声的。对于这些数据如何利用？我们现有的方法或者已有的应用对这些数据的利用还存在很大的不足。

但我们还是有一些启发，比如像 AlphaGo，其最新的版本实际可以通过仿真、模拟产生更多的数据帮我们指导这个算法的训练，这种想法是比较前沿比较先进的。但如果用到实际的系统里却也面临很多困难，一个平行的仿真系统可远比围棋的环境要复杂的多。

大家关注最近一些大的规划，比如美国的 DAPPA 最近的规划--AINext，类似于中国做的新一代人工智能规划。这里面实际提出了下一波的人工智能，就是第三波人工智能。

从之前我们人工智能系统用的技术来看，早期需要用大量手写的知识的叫专家系统。现阶段用的是大量基于机器学习或者机器统计学习，需要大量的数据来训练。

下一阶段是什么，他们提出了“ contextual reasoning ”，可以做推理，有更强大的能力来支撑很多更复杂的任务。具体规划里的 5 个任务，主要目的是希望不断提高人工智能系统处理问题的复杂程度还有可靠性。

以上为人工智能或者机器学习领域面临的挑战和未来的愿景，下面简单看一下这方面的尝试和进展。

图丨朱军（来源：DT君）

在不确定性的建模、推理和决策这些个问题里，我们有什么样的进展？

实际上，这在机器学习、人工智能领域里已经被研究很多年了，包括2011年拿到图灵奖的 Judea Pearl 先生，实际上做了非常奠基性的工作。

在机器学习领域有一个专门的方向叫概率机器学习，它主要包括三个层次的工作：

第一层次，在建模和推理的基本理论框架上，怎么能够让它做得更灵活，尤其是面向复杂问题的时候怎么做友好的建模。

第二层次，做算法，有了模型之后怎么处理大规模的数据，这里面的算法包括随机采样的算法，包括像深度学习里用随机梯度。

第三层次，用大规模分布式的计算，分布式的平台来做概率计算。

第二个进展和鲁棒性、可靠性有关，可能存在恶意攻击或者数据里存在有缺陷的样本情况下，怎么保证系统能够按照我们预设的目标来进行工作？实际最近有很多的进展和关注，包括去年 Google Brain 在NIPS国际会议上举办了第一次的国际比赛，实际上主要针对深度神经网络里的对抗、攻击和防御，今年在拉斯维加斯黑客大会上也有一个专门的竞赛是关于 AI Security。

后面一个紧接的问题，现在很多系统只有输入和输出之间的影射关系，很难理解这个算法或者系统到底怎么工作。这里面有一个很受关注的问题，叫可解释的机器学习、可解释的算法、可解释的系统。

这一块有几个层次的工作，一种可以用可视化的工具辅助理解这个方法，比如深度神经网络。另外在学习的过程中通过引导、训练，能够让深度神经网络里的神经元变得更可解释，和人的概念更接近，这实际可以引入一些知识或者语义的信息来帮助我们做。

最后一个问题——关于决策。决策实际上是一个更有挑战的问题，特别是在不确定环境，或者不完全信息的情况下怎么做决策。比如说用概率的方法来描述老虎机的问题，实际上典型的是一个有不确定信息的情况下怎么做博弈。

在强化学习里面，相关的包括模仿学习等等，最近有了很多进展，比如在《星际争霸》、《刀塔》这种更复杂的场景下怎么来做多智能体的合作和博弈。在国际上也有另外一个国际竞赛，是一个实时的对战游戏，也是在未知的环境下怎么做智能的决策。

我主要想和大家分享的就是，现在的人工智能其实在实际环境中还面临着一些挑战，但好消息就是，通过长期探索，这个领域是不断地在发展的，希望人工智能将来会更好的来解决大家的问题。