10分钟带你读完AI的三生三世

发布时间：2021-12-31 15:41:51 所属栏目：云计算来源：互联网

导读：本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手，回顾其一路以来的发展脉络，以史为镜、正视未来。 AI作为2016年以来最热门的词汇，人们对之也持有不同的看法：有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会

其次是从解决简单的凸优化问题到解决非凸优化问题。

优化问题，是指将所有的考虑因素表示为一组函数，然后从中选出一个最优解。而凸优化问题的一个很好的特性是——局部最优就是全局最优。

目前机器学习中的大部分问题，都可以通过加上一定的约束条件，转化或近似为一个凸优化问题。

虽然任何的优化问题通过遍历函数上的所有点，一定能够找到最优值，但这样的计算量十分庞大。

尤其当特征维度较多的时候，会产生维度灾难(特征数超过已知样本数可存在的特征数上限，导致分类器的性能反而退化)。而凸优化的特性，使得人们能通过梯度下降法寻找到下降的方向，找到的局部最优解就会是全局最优解。

但在现实生活中，真正符合凸优化性质的问题其实并不多，目前对凸优化问题的关注仅仅是因为这类问题更容易解决。

就像在夜晚的街道上丢了钥匙，人们会优先在灯光下寻找一样。因此，换一种说法，人们现在还缺乏针对非凸优化问题的行之有效的算法，这也是人们的努力方向。

第三点是从监督学习向非监督学习和强化学习的演进。

目前来看，大部分的AI应用都是通过监督学习，利用一组已标注的训练数据，对分类器的参数进行调整，使其达到所要求的性能。但在现实生活中，监督学习不足以被称为“智能”。

对照人类的学习过程，许多都是建立在与事物的交互中，通过人类自身的体会、领悟，得到对事物的理解，并将之应用于未来的生活中。而机器的局限就在于缺乏这些“常识”。

卷积神经网络之父、Facebook AI 研究院院长Yann LeCun曾通过一个“黑森林蛋糕”的比喻来形容他所理解的监督学习、非监督学习与强化学习间的关系：

如果将机器学习视作一个黑森林蛋糕，那(纯粹的)强化学习是蛋糕上不可或缺的樱桃，需要的样本量只有几个Bits;监督学习是蛋糕外层的糖衣，需要10到10000个Bits的样本量;无监督学习则是蛋糕的主体，需要数百万Bits的样本量，具备强大的预测能力。

但他也强调，樱桃是必须出现的配料，意味着强化学习与无监督学习是相辅相成、缺一不可的。

无监督学习领域近期的研究重点在于“生成对抗网络”(GANs)，其实现方式是让生成器(Generator)和判别器(Discriminator)这两个网络互相博弈，生成器随机从训练集中选取真实数据和干扰噪音，产生新的训练样本，判别器通过与真实数据进行对比，判断数据的真实性。

在这个过程中，生成器与判别器交互学习、自动优化预测能力，从而创造最佳的预测模型。

自2014由Ian Goodfellow提出后，GANs席卷各大顶级会议，被Yann LeCun 评价为是“20年来机器学习领域最酷的想法”。

而强化学习这边，则更接近于自然界生物学习过程的本源：如果把自己想象成是环境(environment)中一个代理(agent)，一方面你需要不断探索以发现新的可能性(exploration)，一方面又要在现有条件下做到极致(exploitation)。

正确的决定或早或晚一定会为你带来奖励(positive reward)，反之则会带来惩罚(negative reward)，知道最终彻底掌握问题的答案(optimal policy)。

强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境，不断训练，模拟采取各种动作、接受各种反馈，以此对模型进行训练。

10. 人工智能的未来

随着技术水平的突飞猛进，人工智能终于迎来它的黄金时代。回顾人工智能六十年来的风风雨雨，历史告诉了我们这些经验：

首先，基础设施带来的推动作用是巨大的，人工智能屡次因数据、运算力、算法的局限而遇冷，突破的方式则是由基础设施逐层向上推动至行业应用;

其次，游戏AI在发展过程中扮演了重要的角色，因为游戏中牵涉到人机对抗，能帮助人们更直观地理解AI、感受到触动，从而起到推动作用;

最后，我们也必须清醒地意识到，虽然在许多任务上，人工智能都取得了匹敌甚至超越人类的结果，但瓶颈还是非常明显的。

比如计算机视觉方面，存在自然条件的影响(光线、遮挡等)、主体的识别判断问题(从一幅结构复杂的图片中找到关注重点);语音技术方面，存在特定场合的噪音问题(车载、家居等)、远场识别问题、长尾内容识别问题(口语化、方言等);自然语言处理方面，存在理解能力缺失、与物理世界缺少对应(“常识”的缺乏)、长尾内容识别等问题。

总的来说，我们看到，现有的人工智能技术，一是依赖大量高质量的训练数据，二是对长尾问题的处理效果不好，三是依赖于独立的、具体的应用场景、通用性很低。

而往未来看，人们对人工智能的定位绝不仅仅只是用来解决狭窄的、特定领域的某个简单具体的小任务，而是真正成为和人类一样，能同时解决不同领域、不同类型的问题，像人类一样进行判断和决策，也就是所谓的通用人工智能(Artificial General Intelligence, AGI)。

具体来说，需要机器一方面能够通过感知学习、认知学习去理解世界，另一方面通过强化学习去模拟世界。

前者让机器能感知信息，并通过注意、记忆、理解等方式将感知信息转化为抽象知识，快速学习人类积累的知识;后者通过创造一个模拟环境，让机器通过与环境交互试错来获得知识、持续优化知识。

人们希望通过算法上、学科上的交叉、融合和优化，整体解决人工智能在创造力、通用性、对物理世界理解能力上的问题。

在未来，底层的基础设施将会是由互联网、物联网提供的现代人工智能场景和数据，这些是生产的原料;

算法层将会是由深度学习、强化学习提供的现代人工智能核心模型，辅以云计算提供的核心算力，这些是生产的引擎;

在这些的基础之上，不管是计算机视觉、自然语言处理、语音技术，还是游戏AI、机器人等，都是基于同样的数据、模型、算法之上的不同的应用场景。

这其中还存在着一些亟待攻克的问题，如何解决这些问题正是人们一步一个脚印走向AGI的必经之路。

首先是从大数据到小数据。

深度学习的训练过程需要大量经过人工标注的数据，例如无人车研究需要大量标注了车、人、建筑物的街景照片，语音识别研究需要文本到语音的播报和语音到文本的听写，机器翻译需要双语的句对，围棋需要人类高手的走子记录等。

但针对大规模数据的标注工作是一件费时费力的工作，尤其对于一些长尾的场景来说，连基础数据的收集都成问题。

因此，一个研究方向就是如何在数据缺失的条件下进行训练，从无标注的数据里进行学习，或者自动模拟(生成)数据进行训练，目前特别火热的GANs就是一种数据生成模型。

其次是从大模型到小模型。

目前深度学习的模型都非常大，动辄几百兆字节(MB)、大的甚至可以到几千兆字节(GB)甚至几十千兆字节(GB)。

虽然模型在PC端运算不成问题，但如果要在移动设备上使用就会非常麻烦。这就造成语音输入法、语音翻译、图像滤镜等基于移动端的APP无法取得较好的效果。

这块的研究方向在于如何精简模型的大小，通过直接压缩或是更精巧的模型设计，通过移动终端的低功耗计算与云计算之间的结合，使得在小模型上也能跑出大模型的效果。

最后是从感知认知到理解决策。

人类智能在感知和认知的部分，比如视觉、听觉，机器在一定限定条件下已经能够做到足够好了。当然这些任务本来也不难，机器的价值在于可以比人做得更快、更准、成本更低。

但这些任务基本都是静态的，即在给定输入的情况下，输出结果是一定的。而在一些动态的任务中，比如如何下赢一盘围棋、如何开车从一个路口到另一个路口、如何在一支股票上投资并赚到钱，这类不完全信息的决策型的问题，需要持续地与环境进行交互、收集反馈、优化策略，这些也正是强化学习的强项。而模拟环境(模拟器)作为强化学习生根发芽的土壤，也是一个重要的研究方向。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页