加入收藏 | 设为首页 | 会员中心 | 我要投稿 无锡站长网 (https://www.0510zz.cn/)- 运维、开发、CDN、操作系统、语音技术!
当前位置: 首页 > 云计算 > 正文

10分钟带你读完AI的三生三世

发布时间:2021-12-31 15:41:51 所属栏目:云计算 来源:互联网
导读:本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手,回顾其一路以来的发展脉络,以史为镜、正视未来。 AI作为2016年以来最热门的词汇,人们对之也持有不同的看法:有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会

 
其次是从解决简单的凸优化问题到解决非凸优化问题。
 
优化问题,是指将所有的考虑因素表示为一组函数,然后从中选出一个最优解。而凸优化问题的一个很好的特性是——局部最优就是全局最优。
 
目前机器学习中的大部分问题,都可以通过加上一定的约束条件,转化或近似为一个凸优化问题。
 
虽然任何的优化问题通过遍历函数上的所有点,一定能够找到最优值,但这样的计算量十分庞大。
 
尤其当特征维度较多的时候,会产生维度灾难(特征数超过已知样本数可存在的特征数上限,导致分类器的性能反而退化)。而凸优化的特性,使得人们能通过梯度下降法寻找到下降的方向,找到的局部最优解就会是全局最优解。
 
但在现实生活中,真正符合凸优化性质的问题其实并不多,目前对凸优化问题的关注仅仅是因为这类问题更容易解决。
 
就像在夜晚的街道上丢了钥匙,人们会优先在灯光下寻找一样。因此,换一种说法,人们现在还缺乏针对非凸优化问题的行之有效的算法,这也是人们的努力方向。
 
第三点是从监督学习向非监督学习和强化学习的演进。
 
目前来看,大部分的AI应用都是通过监督学习,利用一组已标注的训练数据,对分类器的参数进行调整,使其达到所要求的性能。但在现实生活中,监督学习不足以被称为“智能”。
 
对照人类的学习过程,许多都是建立在与事物的交互中,通过人类自身的体会、领悟,得到对事物的理解,并将之应用于未来的生活中。而机器的局限就在于缺乏这些“常识”。
 
卷积神经网络之父、Facebook AI 研究院院长Yann LeCun曾通过一个“黑森林蛋糕”的比喻来形容他所理解的监督学习、非监督学习与强化学习间的关系:
 
如果将机器学习视作一个黑森林蛋糕,那(纯粹的)强化学习是蛋糕上不可或缺的樱桃,需要的样本量只有几个Bits;监督学习是蛋糕外层的糖衣,需要10到10000个Bits的样本量;无监督学习则是蛋糕的主体,需要数百万Bits的样本量,具备强大的预测能力。
 
但他也强调,樱桃是必须出现的配料,意味着强化学习与无监督学习是相辅相成、缺一不可的。
 
无监督学习领域近期的研究重点在于“生成对抗网络”(GANs),其实现方式是让生成器(Generator)和判别器(Discriminator)这两个网络互相博弈,生成器随机从训练集中选取真实数据和干扰噪音,产生新的训练样本,判别器通过与真实数据进行对比,判断数据的真实性。
 
在这个过程中,生成器与判别器交互学习、自动优化预测能力,从而创造最佳的预测模型。
 
自2014由Ian Goodfellow提出后,GANs席卷各大顶级会议,被Yann LeCun 评价为是“20年来机器学习领域最酷的想法”。
 
而强化学习这边,则更接近于自然界生物学习过程的本源:如果把自己想象成是环境(environment)中一个代理(agent),一方面你需要不断探索以发现新的可能性(exploration),一方面又要在现有条件下做到极致(exploitation)。
 
正确的决定或早或晚一定会为你带来奖励(positive reward),反之则会带来惩罚(negative reward),知道最终彻底掌握问题的答案(optimal policy)。
 
强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境,不断训练,模拟采取各种动作、接受各种反馈,以此对模型进行训练。
 
 
 
 
 
 
10. 人工智能的未来
 
随着技术水平的突飞猛进,人工智能终于迎来它的黄金时代。回顾人工智能六十年来的风风雨雨,历史告诉了我们这些经验:
 
首先,基础设施带来的推动作用是巨大的,人工智能屡次因数据、运算力、算法的局限而遇冷,突破的方式则是由基础设施逐层向上推动至行业应用;
 
其次,游戏AI在发展过程中扮演了重要的角色,因为游戏中牵涉到人机对抗,能帮助人们更直观地理解AI、感受到触动,从而起到推动作用;
 
最后,我们也必须清醒地意识到,虽然在许多任务上,人工智能都取得了匹敌甚至超越人类的结果,但瓶颈还是非常明显的。
 
比如计算机视觉方面,存在自然条件的影响(光线、遮挡等)、主体的识别判断问题(从一幅结构复杂的图片中找到关注重点);语音技术方面,存在特定场合的噪音问题(车载、家居等)、远场识别问题、长尾内容识别问题(口语化、方言等);自然语言处理方面,存在理解能力缺失、与物理世界缺少对应(“常识”的缺乏)、长尾内容识别等问题。
 
总的来说,我们看到,现有的人工智能技术,一是依赖大量高质量的训练数据,二是对长尾问题的处理效果不好,三是依赖于独立的、具体的应用场景、通用性很低。
 
而往未来看,人们对人工智能的定位绝不仅仅只是用来解决狭窄的、特定领域的某个简单具体的小任务,而是真正成为和人类一样,能同时解决不同领域、不同类型的问题,像人类一样进行判断和决策,也就是所谓的通用人工智能(Artificial General Intelligence, AGI)。
 
具体来说,需要机器一方面能够通过感知学习、认知学习去理解世界,另一方面通过强化学习去模拟世界。
 
前者让机器能感知信息,并通过注意、记忆、理解等方式将感知信息转化为抽象知识,快速学习人类积累的知识;后者通过创造一个模拟环境,让机器通过与环境交互试错来获得知识、持续优化知识。
 
人们希望通过算法上、学科上的交叉、融合和优化,整体解决人工智能在创造力、通用性、对物理世界理解能力上的问题。
 
在未来,底层的基础设施将会是由互联网、物联网提供的现代人工智能场景和数据,这些是生产的原料;
 
算法层将会是由深度学习、强化学习提供的现代人工智能核心模型,辅以云计算提供的核心算力,这些是生产的引擎;
 
在这些的基础之上,不管是计算机视觉、自然语言处理、语音技术,还是游戏AI、机器人等,都是基于同样的数据、模型、算法之上的不同的应用场景。
 
这其中还存在着一些亟待攻克的问题,如何解决这些问题正是人们一步一个脚印走向AGI的必经之路。
 
首先是从大数据到小数据。
 
深度学习的训练过程需要大量经过人工标注的数据,例如无人车研究需要大量标注了车、人、建筑物的街景照片,语音识别研究需要文本到语音的播报和语音到文本的听写,机器翻译需要双语的句对,围棋需要人类高手的走子记录等。
 
但针对大规模数据的标注工作是一件费时费力的工作,尤其对于一些长尾的场景来说,连基础数据的收集都成问题。
 
因此,一个研究方向就是如何在数据缺失的条件下进行训练,从无标注的数据里进行学习,或者自动模拟(生成)数据进行训练,目前特别火热的GANs就是一种数据生成模型。
 
其次是从大模型到小模型。
 
目前深度学习的模型都非常大,动辄几百兆字节(MB)、大的甚至可以到几千兆字节(GB)甚至几十千兆字节(GB)。
 
虽然模型在PC端运算不成问题,但如果要在移动设备上使用就会非常麻烦。这就造成语音输入法、语音翻译、图像滤镜等基于移动端的APP无法取得较好的效果。
 
这块的研究方向在于如何精简模型的大小,通过直接压缩或是更精巧的模型设计,通过移动终端的低功耗计算与云计算之间的结合,使得在小模型上也能跑出大模型的效果。
 
最后是从感知认知到理解决策。
 
人类智能在感知和认知的部分,比如视觉、听觉,机器在一定限定条件下已经能够做到足够好了。当然这些任务本来也不难,机器的价值在于可以比人做得更快、更准、成本更低。
 
但这些任务基本都是静态的,即在给定输入的情况下,输出结果是一定的。而在一些动态的任务中,比如如何下赢一盘围棋、如何开车从一个路口到另一个路口、如何在一支股票上投资并赚到钱,这类不完全信息的决策型的问题,需要持续地与环境进行交互、收集反馈、优化策略,这些也正是强化学习的强项。而模拟环境(模拟器)作为强化学习生根发芽的土壤,也是一个重要的研究方向。

(编辑:无锡站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读