10分钟带你读完AI的三生三世

发布时间：2021-12-31 15:41:51 所属栏目：云计算来源：互联网

导读：本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手，回顾其一路以来的发展脉络，以史为镜、正视未来。 AI作为2016年以来最热门的词汇，人们对之也持有不同的看法：有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会

在这之后，欧盟、日本也纷纷开始研究多语言机器翻译系统，但并未取得预期的成效。

到了90年代时，自然语言处理进入了发展繁荣期。随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生，以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现，人们对自然语言处理的热情空前高涨。

在传统基于规则的处理技术中，人们引入了更多数据驱动的统计方法，将自然语言处理的研究推向了一个新高度。除了机器翻译之外，网页搜索、语音交互、对话机器人等领域都有自然语言处理的功劳。

进入2010年以后，基于大数据和浅层、深层学习技术，自然语言处理的效果得到了进一步优化。机器翻译的效果进一步提升，出现了专门的智能翻译产品。对话交互能力被应用在客服机器人、智能助手等产品中。

这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。比赛中Watson没有联网，但依靠4TB磁盘内200万页结构化和非结构化的信息，Watson成功战胜人类选手取得冠军，向世界展现了自然语言处理技术所能达到的实力。

机器翻译方面，谷歌推出的神经网络机器翻译(GNMT)相比传统的基于词组的机器翻译(PBMT)，英语到西班牙语的错误率下降了87%，英文到中文的错误率下降了58%，取得了非常强劲的提升。

4. 规划决策系统的发展历史

人工智能规划决策系统的发展，一度是以棋类游戏为载体的。最早在18世纪的时候，就出现过一台可以下棋的机器，击败了当时几乎所有的人类棋手，包括拿破仑和富兰克林等。不过最终被发现机器里藏着一个人类高手，通过复杂的机器结构以混淆观众的视线，只是一场骗局而已。

真正基于人工智能的规划决策系统出现在电子计算机诞生之后，1962年，Arthur Samuel制作的西洋跳棋程序Checkers经过屡次改进后，终于战胜了州冠军。

当时的程序虽然还算不上智能，但也已经具备了初步的自我学习能力，这场胜利在当时还是引起了巨大的轰动，毕竟是机器首次在智力的角逐中战胜人类。这也让人们发出了乐观的预言：“机器将在十年内战胜人类象棋冠军”。

但人工智能所面临的困难比人们想象得要大很多，跳棋程序在此之后也败给了国家冠军，未能更上一层楼。而国际象棋相比跳棋要复杂得多，在当时的计算能力下，机器若想通过暴力计算战胜人类象棋棋手，每步棋的平均计算时长是以年为单位的。人们也意识到，只有尽可能减少计算复杂度，才可能与人类一决高下。

于是，“剪枝法”被应用到了估值函数中，通过剔除掉低可能性的走法，优化最终的估值函数计算。在“剪枝法”的作用下，西北大学开发的象棋程序Chess 4.5在1976年首次击败了顶尖人类棋手。

进入80年代，随着算法上的不断优化，机器象棋程序在关键胜负手上的判断能力和计算速度大幅提升，已经能够击败几乎所有的顶尖人类棋手。

到了90年代，硬件性能、算法能力等都得到了大幅提升，在1997年那场著名的人机大战中，IBM研发的深蓝(Deep Blue)战胜国际象棋大师卡斯帕罗夫，人类意识到在象棋游戏中已经很难战胜机器了。

到了2016年，硬件层面出现了基于GPU、TPU的并行计算，算法层面出现了蒙特卡洛决策树与深度神经网络的结合。

4:1战胜李世石、在野狐围棋对战顶尖棋手60连胜、3:0战胜世界排名第一的围棋选手柯洁，随着棋类游戏最后的堡垒——围棋也被Alpha Go所攻克，人类在完美信息博弈的游戏中已彻底输给机器，只能在不完美信息的德州扑克和麻将中苟延残喘。

人们从棋类游戏中积累的知识和经验，也被应用在更广泛的需要决策规划的领域，包括机器人控制、无人车等等。棋类游戏完成了它的历史使命，带领人工智能到达了一个新的历史起点。

5. 人工智能的现在

时至今日，人工智能的发展已经突破了一定的“阈值”。与前几次的热潮相比，这一次的人工智能来得更“实在”了，这种“实在”体现在不同垂直领域的性能提升、效率优化。计算机视觉、语音识别、自然语言处理的准确率都已不再停留在“过家家”的水平，应用场景也不再只是一个新奇的“玩具”，而是逐渐在真实的商业世界中扮演起重要的支持角色。

6. 语音处理的现在

一个完整的语音处理系统，包括前端的信号处理、中间的语音语义识别和对话管理(更多涉及自然语言处理)、以及后期的语音合成。

总体来说，随着语音技术的快速发展，之前的限定条件正在不断减少：包括从小词汇量到大词汇量再到超大词汇量、从限定语境到弹性语境再到任意语境、从安静环境到近场环境再到远场嘈杂环境、从朗读环境到口语环境再到任意对话环境、从单语种到多语种再到多语种混杂，但这给语音处理提出了更高的要求。

语音的前端处理中包含几个模块。

说话人声检测：有效地检测说话人声开始和结束时刻, 区分说话人声与背景声;

回声消除：当音箱在播放音乐时，为了不暂停音乐而进行有效的语音识别，需要消除来自扬声器的音乐干扰;

唤醒词识别：人类与机器交流的触发方式，就像日常生活中需要与其他人说话时，你会先喊一下那个人的名字;

麦克风阵列处理：对声源进行定位，增强说话人方向的信号、抑制其他方向的噪音信号;

语音增强：对说话人语音区域进一步增强,、环境噪声区域进一步抑制,有效降低远场语音的衰减。

除了手持设备是近场交互外，其他许多场景——车载、智能家居等——都是远场环境。

在远场环境下，声音传达到麦克风时会衰减得非常厉害，导致一些在近场环境下不值一提的问题被显著放大。这就需要前端处理技术能够克服噪声、混响、回声等问题、较好地实现远场拾音。

同时，也需要更多远场环境下的训练数据，持续对模型进行优化，提升效果。

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。除了前面提到的远场识别问题之外，还有许多前沿研究集中在解决“鸡尾酒会问题”。

“鸡尾酒会问题”显示的是人类的一种听觉能力，能在多人场景的语音/噪声混合中，追踪并识别至少一个声音，在嘈杂环境下也不会影响正常交流。

这种能力体现在两种场景下：

一是人们将注意力集中在某个声音上时，比如在鸡尾酒会上与朋友交谈时，即使周围环境非常嘈杂、音量甚至超过了朋友的声音，我们也能清晰地听到朋友说的内容;

二是人们的听觉器官突然受到某个刺激的时候，比如远处突然有人喊了自己的名字，或者在非母语环境下突然听到母语的时候，即使声音出现在远处、音量很小，我们的耳朵也能立刻捕捉到。

而机器就缺乏这种能力，虽然当前的语音技术在识别一个人所讲的内容时能够体现出较高的精度，当说话人数为二人或更多时，识别精度就会大打折扣。

如果用技术的语言来描述，问题的本质其实是给定多人混合语音信号，一个简单的任务是如何从中分离出特定说话人的信号和其他噪音，而复杂的任务则是分离出同时说话的每个人的独立语音信号。

在这些任务上，研究者已经提出了一些方案，但还需要更多训练数据的积累、训练过程的打磨，逐渐取得突破，最终解决鸡尾酒会问题。

考虑到语义识别和对话管理环节更多是属于自然语言处理的范畴，剩下的就是语音合成环节。

语音合成的几个步骤包括：文本分析、语言学分析、音长估算、发音参数估计等。

基于现有技术合成的语音在清晰度和可懂度上已经达到了较好的水平，但机器口音还是比较明显。

目前的几个研究方向包括：如何使合成语音听起来更自然、如何使合成语音的表现力更丰富、如何实现自然流畅的多语言混合合成。只有在这些方向有所突破，才能使合成的语音真正与人类声音无异。

可以看到，在一些限制条件下，机器确实能具备一定的“听说”能力。因此在一些具体的场景下，比如语音搜索、语音翻译、机器朗读等，确实能有用武之地。

但真正做到像正常人类一样，与其他人流畅沟通、自由交流，还有待时日。

7. 计算机视觉的现在

计算机视觉的研究方向，按技术难度的从易到难、商业化程度的从高到低，依次是处理、识别检测、分析理解。

图像处理是指不涉及高层语义，仅针对底层像素的处理;图像识别检测则包含了语音信息的简单探索;图像理解则更上一层楼，包含了更丰富、更广泛、更深层次的语义探索。

目前在处理和识别检测层面，机器的表现已经可以让人满意。但在理解层面，还有许多值得研究的地方。

图像处理以大量的训练数据为基础(例如通过有噪声和无噪声的图像配对)，通过深度神经网络训练一个端到端的解决方案。有几种典型任务：去噪声、去模糊、超分辨率处理、滤镜处理等。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页