6000字长文｜第四次产业革命始于人工智能

搜索

公众号

发布

6000字长文｜第四次产业革命始于人工智能

琥珀

2017-02-01

0 评论 5444 浏览 0 收藏

「最近十年，我们一直在建立一个移动优先（mobile-first）的世界，而接下来的十年里，我们的将转向人工智能优先（AI-first）的世界。」

原文作者：David Kelnar

译者：徐婧欣

「最近十年，我们一直在建立一个移动优先（mobile-first）的世界，而接下来的十年里，我们的将转向人工智能优先（AI-first）的世界。」（Google CEO Sundar Pichai，2016 年 10 月）

从 Amazon 和 Facebook 到 Google 和 Microsoft，世界上最具影响力的技术公司的领导者都在表现出了对人工智能（AI）极大的热爱。那么什么是 AI？为什么如此重要？为什么会在现在成为热点？虽然人们对于 AI 越来越感兴趣，但是只有专家才能真正能够理解这个领域。我们的目标是使更多人接触到这个重要领域。

首先我们要解释 AI 以及「机器学习」等关键术语的含义，阐述成果最丰富的 AI 领域「深度学习」是如何运作的，并对 AI 解决的问题及为什么这些问题很重要进行探索。我们还会分析，为什么二十世纪五十年代发明的 AI 技术会在今天迎来它的时代。

作为风险投资人，我们一直在寻找能够为客户和公司创造价值的新潮流。我们相信 AI 会是一种比移动化和云计算更重要的变革。Amazon 的 CEO Jeff Bezos 表示，「很难说在接下来的 20 年，AI 会对社会造成怎样的影响。」无论你是客户、行政人员、企业家还是投资人，我们希望这篇文章能够不同于那些天花乱坠的宣传，真正为你解释为什么这个新型潮流对我们来说如此重要。

一、什么是 AI？

人工智能：关于智能程序的科学。

1956 年，达特茅斯学院的助理教授 John McCarthy 创造了「人工智能」（AI）一词，指那些能够表现出智能行为的硬件和软件，用 John McCarthy 的话说，就是「制造智能机器，尤其是智能计算机程序的科学和工程。」

基础的「AI」已经存在了几十年，在特定环境下通过基于一定规则的程序呈现基本的智能行为。但是取得的成绩是有限的，因为用于处理很多现实世界问题的算法是很难人工进行编程的。

在进行医疗诊断、预测机器故障或是测定特定资产的市场价值等复杂活动时，会涉及到上千个数据组和变量之间的非线性关系。在这些情况下，我们很难用现有的数据得到「最佳」预测结果。而在其他领域，包括在图像中识别目标和语言翻译等，我们甚至无法创建规则来描述我们寻求的特征。我们怎么可能编写一组适用于所有情形的程序，来描述一只小狗的外貌呢？

进行数据优化和功能特征等复杂的预测时会遇到一些困难，假使我们将这种困难由程序员那里转移到程序呢？这就是现代人工智能的责任。

幻灯片12.PNG

机器学习也属于 AI 技术，所有机器学习都属于 AI，但 AI 并不只是机器学习（见表一）。从人们对 AI 的兴趣可以看出对机器学习的热情，这一领域的发展非常迅速并且意义重大。

有些问题对于人类来说非常复杂，而机器学习可以帮助我们将一部分负担转移给算法，来解决这些问题。1959 年，AI 的先驱 Arthur Samuel 曾经写道，机器学习是「一种赋予计算机无需明确编程就能学习的能力的研究领域」。

大部分机器学习的目标都是针对特定使用情况开发预测引擎。算法会接收到某一领域（比如一个人在过去看过的电影）的信息，对投入进行权衡，做出有用的预测（一个人在未来喜欢不同电影的可能性）。通过赋予「计算机学习的能力」，可以利用算法完成最优化的任务，最优化也就是通过衡量可用数据中的变量，对未来进行准确预测。我们还可以更进一步，将特征详述的任务也交给程序来做。

机器学习算法要经过训练。算法首先接收到例子，并且已知这些例子的输出，记录下预测输出与真实输出的差距并调整输入的权重提高预测的准确性，直到得出最优值。因此，机器学习算法最典型的特征就是，预测的质量会随着经验的丰富而提升。我们提供的数据越多（一定程度上），预测引擎能得出的结果就越优化。（见图二、图三，需要的数据集的规模非常依赖于环境，从以下例子中我们无法笼统概括。）

幻灯片8.PNG

幻灯片3.PNG

机器学习的方法有超过 15 种，每一种都使用不同算法结构，依据得到的数据实现预测最优化。「深度学习」是其中一种方法，在新的领域取得了突破性成果，我们将在下文中对此方法进行探索。此外一些没有受到很多关注的技术也很有价值，它们适用于更广泛的使用情形。除了深度学习外，「随机森林」也是一种最有效率的机器学习算法，可以创造很多决策树，使预测最优化；

「贝叶斯网络」使用概率性方法分析变量及各变量之间的关系；在支持向量机中输入的是类别化的案例，它可以创造模型，把新的输入分配到各个类别中。

每一种方法都有优势和不足，所以要结合起来使用（一种组合方法）。哪种算法会被选择出来解决某一特定问题，取决于可用数据集等因素的性质。实践中，开发者倾向于通过实验观察哪些算法是有效果的。

机器学习的使用案例根据我们的需求和想象而不同。拥有正确的数据后，我们可以建立算法实现各种目的：根据某人之前的购买记录推荐购买产品；预测汽车装配线上的机器何时会发生故障；预测电子邮件地址是否错误；估计信用卡交易欺诈行为的可能性；还有很多其他目的。

深度学习：将特征详述工作交给算法

即使使用随机森林、贝叶斯网络、支持向量机等普通机器学习方法，也很难编写出能很好地完成特定任务的程序，从理解语音到识别图像中的对象。因为我们无法以实际、可靠的途径来详述特征。例如，如果想要编写计算机程序来识别汽车的形象，我们无法在算法中详述汽车的特征，来确保在所有情况下都能准确识别。汽车的形状、大小和颜色多种多样，位置、方向和形态也有所不同。背景、灯光和很多其他因素都会影响对象的外表。一组规则中需要包含的变量太多了，即使我们能够全部包含进去，这种解决方案也不具备延展性。我们需要为每种需要识别的对象都编写一组程序。

深度学习（DL）已经彻底改变了人工智能世界。有超过 15 种实现机器学习的方法，深度学习就是其中一种，所有深度学习都属于机器学习，但是机器学习并不只是深度学习。（图 4）

幻灯片9.PNG

通过深度学习，程序员可以不必完成特征详述（根据数据定义需要分析的特征）或最优化（如何权衡数据以实现准确预测）的任务，而是全部交给算法来完成。

那么如何实现这些呢？深度学习的突破点在于模拟大脑，而不是模拟世界。我们的大脑会学习做有难度的事情，比如理解话语和识别物体，而且并不是通过详尽的规则而是通过时间和反馈来学习。小的时候我们体验这个世界（比如看见一张汽车的图片），做出预测（汽车！）然后收到反馈（没错！）。我们没有通过一组详尽的规则，而是通过训练进行学习。

深度学习使用的就是这种方法。将人造的、以软件为基础的计算器连接在一起，类似于大脑中的神经元。它们组成了一个「神经网络」，接收输入并进行分析、作出判断，如果判断正确，就做出通知，如果输出是错误的，算法就会对神经元之间的联系做出调整，改变未来的预测。最初网络会出现很多次错误，但随着我们输入数以百万计的例子，神经元之间的联系就会得到调整，最终几乎在所有情形下，神经网络都会做出正确的判断，这也就是熟能生巧。

通过这个过程，我们现在可以：

识别图片中的元素；

实时语言翻译；

语音控制设备（通过 Apple Siri、Google Now、Amazon Alexa 以及 Microsoft Cortana）；

预测基因变化会对 DNA 转录产生怎样的影响；

分析客户反馈中的情感；

通过医学影像探测肿瘤。

深度学习并不能用于解决所有问题，其通常会需要利用大型数据集进行训练，需要广泛的处理能力来训练和运行神经网络。「可解释性」也是一个问题，要知道神经网络如何实现预测是非常困难的。但是深度学习使程序员从复杂的特征详述工作中解放出来，为一系列重要问题提供成功的预测机制。深度学习最终会成为 AI 开发者的强大工具。

二. 深度学习是如何工作的？

既然深度学习如此重要，了解其工作的基本要素也是非常有价值的。深度学习需要使用一个人工「神经网络」，即一组相互连接的「神经元」（基于软件的计算器）。

一个人工神经元至少会接收一个输入，其会以此为基础进行数学计算，得到输出结果。输出结果会依赖于每个输入的权重和神经元中的「输入-输出函数」的结构（图 5）。输入-输出函数会发生变化，神经元可能是：

一个线性单元（输出与总加权输入成一定比例）；

一个阙值单元（输出可分为两个等级，根据总输入是否高于特定值确定其等级）；或者 Sigmoid 单元（输出不断变化，与输入变化不成线性关系）。

当神经元相互连接时就会产生神经网络，一个神经元的输出会成为另一个神经元的输入（图 6）。

幻灯片11.PNG

神经网络会组成多层神经元（所以会有「深度」学习）。「输入层（input layer）」接收信息，如一组图片，网络会对此进行处理。「输出层（output layer）」负责提供结果，多数活动都发生在输入层和输出层之间的「隐层（hidden layers）」上。神经网络上每一层的每个神经元的输出都是下一层的一个神经元的输入（图 7）。

幻灯片7.PNG

下面就以一个图像识别算法为例，在图像中识别人脸。将数据输入神经网络，由第一层来识别局部对比的模式等「低等级」特点，如轮廓。图像穿过网络后，会逐渐提取其中的「高等级」特点，从轮廓到鼻子，再到面部。（图 8）

幻灯片10.PNG

在输出层，通过训练神经网络会得出关于图片属于某一类的可能性（人脸：97%；气球：2%；树叶：1%）。

训练神经网络的方式就是将大量带有标记的例子展现在它们面前，可以检测出来错误，算法也会对神经元之间联系的权重进行调整，来完善结果。多次重复这个优化过程，就可以部署系统并对未标记的图像进行评估。

以上是一个简单的神经网络，但是结构可以变化，且多数比较复杂。变量包括同层神经元之间的连接；区别每层神经元的数量；神经元之间的联系向上一等级网络输出（递归神经网络）。

设计和完善神经网络需要大量的技能，步骤包括为特定应用组织网络、提供合适的训练数据集，根据进展调整网络结构，以及结合多种方法。

三．AI 为什么很重要？

AI 要处理的是非常有深度的难题，因此非常重要，这些问题的解决方案可以应用于那些对人类幸福感非常重要的部门，从健康、教育和商业到交通、公共事业和娱乐。二十世纪五十年代起，AI 研究就关注了五个领域：

推理：通过逻辑推理解决问题的能力。

知识：表现关于世界知识的能力。（理解世界上的一些特定实体、事件和状况；具有某些特性的要素；可分类的要素。）

计划：制定和实现目标的能力（世界的未来有一种特定状态是我们所期待的，可以通过一系列的活动影响到通向这种状态的过程）。

交流：理解书面和口头语言的能力。

感知：根据视觉影像、声音和其他感官输入对与世界有关的事情进行推理的能力。

AI 的价值可以体现在很多方面，这些能力的进步带来的不只是发展而是变革。AI 的应用事例包括以下方面：

推理：法律评定；金融资产管理；财务应用处理；游戏；自主武器系统。

知识：医疗诊断；药品研发；媒体推荐；购买预测；金融市场贸易；欺诈防范。

计划：物流；行程安排；导航；物理和数字网络优化；预见性维护；需求预测；库存管理。

交流：声音控制；智能代理，助理及客户支持；书面及口头语言实时翻译；实时转录。

感知：自动驾驶；医疗诊断；监控。

接下来几年，几乎所有部门都会在更多流程中应用机器学习。比如简单的企业功能，如一家公司中的人力资源（HR），就即将应用机器学习；

员工招聘可以更有目标性，可以使用智能工作匹配和部分自动化评估功能；

通过人员需求和缺席的预测性计划可以强化员工管理；

如果能够推荐更适合员工的学习内容，员工学习也会更有效果；

通过对员工离职风险的预测可以减少人员变动。

机器学习将变得正规化，成为开发人员标准工具的一部分，能够完善并重塑现有流程。

机器学习的后续影响会超越即时影响。深度学习促进了计算机视觉的发展，例如可以实现车辆（轿车和卡车）自动驾驶。那么其又会带来哪些影响呢？目前在英国有 90% 的人和 80% 的货物是通过公路运输的，如果使用自动驾驶车辆会产生以下影响：

安全（90% 的交通事故是由驾驶员的疏忽引起的）

雇佣（英国有 220 万运输及物流行业的员工，年薪约为 570 亿英镑）

保险（Autonomous Research 预计，之后英国的汽车保险费用将下降 63%）

部门经济（客户将使用按需交通服务，代替自己的汽车）；

汽车生产能力；城市计划；规则及其他。

四. 为什么现在会是 AI 的时代？

AI 研究始于二十世纪五十年代，为什么在经历了多次失败以后，现在迎来了转折点？新算法的产生、数据通知能力的提升、更好的训练算法的硬件以及促使开发者使用 AI 技术的云服务。

1.经过改进的算法

尽管深度学习并不是新技术，首个有效多层神经网络的详细说明发布于 1965 年，但是在过去十年里算法的发展确实对深度学习产生了很大影响。

由于卷积神经网络（CNN）的发展，我们在图像中识别物体的能力也得到了提高（图 9）。受到动物视觉皮质的启发，神经网络中的每一层都是特定模式存在的过滤器。2015 年，微软的基于 CNN 的计算机视觉系统（准确度：95.1%）在图片中识别物体的能力超过了人类（准确度：94.9%）。「据我们所知」，他写道，「我们的成果的表现首次超过了人类。」CNN 更加广泛的应用还包括视频和语音识别。

幻灯片1.PNG

同时，递归神经网络（RNNs）出现后，语音和字迹的识别能力也在迅速提高（图 10）。RNNs 的反馈联系能够确保数据进入一个循环，这不同于只能正向输送的常规神经网络。有一种强大的新型 RNN 叫做「长短时记忆（LSTM）」模型。通过附加的联系和存储单元，RNN 能够记忆几千个步骤之前看见的数据，并通知以下解释，这对于语音识别来说非常有价值，对下一个词的解释可以从前面的单词那里得知。2012 年开始，Google 开始使用 LSTM 来支持 Android 系统中的语音识别，仅六周前，微软的工程师宣布，他们的系统误字率为 5.9%，这是首次大致等同于人类的水平。

幻灯片2.PNG

2. 专门化硬件

绘图处理器（GPUs）是专门的电子电路，极大削减了深度学习所需的训练神经网络的时间。

训练神经网络广泛应用了矩阵计算方法。所以对 3D 游戏有用的 GPUs 非常适合加速深度学习的发展，一个简单的 GPU 就能够将训练效率提升 5 倍，在较大的问题上，收获或许增加了不只 10 倍。如果结合上那些为了广泛使用深度学习框架而调整的软件开发装备，训练速度会有更大的提升。（图 11）

幻灯片5.PNG

3. 大规模数据

用于深度学习的神经网络通常都需要利用大型数据组进行训练，从几千个例子到几百万个例子。幸运的是，数据的创造和可用性在以指数方式增长。现在，随着进入数据的「第三次浪潮」，人类每天会产生 2.2 艾字节（23 亿千兆字节）的数据；世界上所有数据中有 90% 都产生于过去的 24 个月。

数据创造的「第一次浪潮」开始于二十世纪八十年代，涵盖文档和交易数据，可以联网的台式 PC 的普及也加速了这次浪潮。接下来是数据的「第二次浪潮」，是非结构化媒体（电子邮件、照片、音乐和视频）的一次爆发，普及化的智能手机联网后会产生网页数据和元数据。现在我们正在迈入数据的「第三时代」，工业和家中都可以部署机器传感器，创造额外的监控、分析和元数据。

假定今天我们创造出的大量数据都是通过互联网传送的，膨胀的网络交通就会成为大量增长的数据量的防火墙。1992 年，人类每天传送 100GB 的数据，而到了 2020 年，我们每秒就将传送 61,000GB 数据（图 12）。

幻灯片4.PNG

我们能够使用的通用数据越来越多，专业数据资源加速了机器学习的进程。例如 ImageNet，是一个可以自由使用的数据库，拥有超过一千万个带标签的图像。这个数据库加速了对象分类深度学习算法的发展。

4. 云服务

行业内顶尖的云计算供应商会提供云端的机器学习基础架构及服务，能够促进开发者对机器学习的使用。

Google、Amazon、Microsoft 和 IBM 都会通过提供云端基础架构（建模和迭代环境、可扩展的「GPUs 即服务」和相关托管服务）来降低开发机器学习功能的成本和难度。

此外，他们提供的云端机器学习服务（从图像识别到语言翻译）范围也在扩大，开发人员可以直接在自己的应用中使用这些服务。Google 机器学习提供了一些很容易获得的服务，包括视觉（物体识别、明确内容检测、人脸检测和图像情感分析）；语音（语音识别和语音文字转换）；文本分析（实体识别、情感分析、语言检测及翻译）；以及求职（列举工作机会以及资格匹配）。Microsoft Cognitive Services 能够提供超过 21 种视觉、语音、语言、知识和搜索领域的服务。

5. 利益和创业

在过去五年里 AI 领域的公共利益增长了六倍（图 13），风投公司对 AI 公司的投资也大幅增加（图 14）。我们已经进入了一个良性循环，机器学习领域的进步正在吸引投资、创业以及注意力。而后者又会反过来加速机器学习的发展。

幻灯片13.PNG

幻灯片6.PNG

五. 前景如何？

机器学习能带来的利益是无穷的，我能够看到的就包括从无人驾驶汽车到人机互动的新途径。还有很多利益没有这么明显，但是能够提供日常的业务流程和客户服务的能力和效率。

有时我们的期望过高，超出了短期的发展潜力，我们希望未来能够真正认识 AI，随着机器学习被用于改善和重新设想现有的系统，希望我们能够认识到 AI 的价值。

历史上，产业革命会通过新的能量来源和传动装置改变生产和交流方式。18 世纪 80 年代，第一次产业革命通过蒸汽动力实现了生产自动化。19 世纪 70 年代，第二次产业革命通过电力实现了大量生产。20 世纪 70 年代以来，第三次产业革命通过电子工业和软件技术实现了生产及通讯的自动化。现在，软件遍布整个世界，信息处理成为了价值创造的首要来源。机器学习使我们的世界更加智能化，将产生历史性的利益。

点赞 0收藏 0打赏 0评论 0