10分钟带你读完AI的三生三世

发布时间：2021-12-31 15:41:51 所属栏目：云计算来源：互联网

导读：本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手，回顾其一路以来的发展脉络，以史为镜、正视未来。 AI作为2016年以来最热门的词汇，人们对之也持有不同的看法：有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会

本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手，回顾其一路以来的发展脉络，以史为镜、正视未来。

AI作为2016年以来最热门的词汇，人们对之也持有不同的看法：有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会、有人抛出威胁论。

本系列试图以通俗易懂的方式，让不同知识水平的读者都能从中获益：让外行人对人工智能有一个清晰客观的理解，也帮助内行人更好地参与到AI带来这场产业变革中来。

本文将会从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手，回顾其一路以来的发展脉络，以史为镜、正视未来。

1. 计算机视觉的发展历史

“看”是人类与生俱来的能力。刚出生的婴儿只需要几天的时间就能学会模仿父母的表情，人们能从复杂结构的图片中找到关注重点、在昏暗的环境下认出熟人。随着人工智能的发展，机器也试图在这项能力上匹敌甚至超越人类。

计算机视觉的历史可以追溯到1966年，人工智能学家Minsky在给学生布置的作业中，要求学生通过编写一个程序让计算机告诉我们它通过摄像头看到了什么，这也被认为是计算机视觉最早的任务描述。

到了七八十年代，随着现代电子计算机的出现，计算机视觉技术也初步萌芽。人们开始尝试让计算机回答出它看到了什么东西，于是首先想到的是从人类看东西的方法中获得借鉴。

借鉴之一是当时人们普遍认为，人类能看到并理解事物，是因为人类通过两只眼睛可以立体地观察事物。因此要想让计算机理解它所看到的图像，必须先将事物的三维结构从二维的图像中恢复出来，这就是所谓的“三维重构”的方法。

借鉴之二是人们认为人之所以能识别出一个苹果，是因为人们已经知道了苹果的先验知识，比如苹果是红色的、圆的、表面光滑的，如果给机器也建立一个这样的知识库，让机器将看到的图像与库里的储备知识进行匹配，是否可以让机器识别乃至理解它所看到的东西呢，这是所谓的“先验知识库”的方法。

这一阶段的应用主要是一些光学字符识别、工件识别、显微/航空图片的识别等等。

到了九十年代，计算机视觉技术取得了更大的发展，也开始广泛应用于工业领域。一方面原因是CPU、DSP等图像处理硬件技术有了飞速进步;另一方面是人们也开始尝试不同的算法，包括统计方法和局部特征描述符的引入。

在“先验知识库”的方法中，事物的形状、颜色、表面纹理等特征是受到视角和观察环境所影响的，在不同角度、不同光线、不同遮挡的情况下会产生变化。

因此，人们找到了一种方法，通过局部特征的识别来判断事物，通过对事物建立一个局部特征索引，即使视角或观察环境发生变化，也能比较准确地匹配上。

进入21世纪，得益于互联网兴起和数码相机出现带来的海量数据，加之机器学习方法的广泛应用，计算机视觉发展迅速。以往许多基于规则的处理方式，都被机器学习所替代，自动从海量数据中总结归纳物体的特征，然后进行识别和判断。

这一阶段涌现出了非常多的应用，包括典型的相机人脸检测、安防人脸识别、车牌识别等等。

数据的积累还诞生了许多评测数据集，比如权威的人脸识别和人脸比对识别的平台——FDDB和LFW等，其中最有影响力的是ImageNet，包含1400万张已标注的图片，划分在上万个类别里。

到了2010年以后，借助于深度学习的力量，计算机视觉技术得到了爆发增长和产业化。通过深度神经网络，各类视觉相关任务的识别精度都得到了大幅提升。

在全球最权威的计算机视觉竞赛ILSVR(ImageNet Large Scale VisualRecognition Competition)上，千类物体识别Top-5错误率在2010年和2011年时分别为28.2%和25.8%，从2012年引入深度学习之后，后续4年分别为16.4%、11.7%、6.7%、3.7%，出现了显著突破。

由于效果的提升，计算机视觉技术的应用场景也快速扩展，除了在比较成熟的安防领域应用外，也有应用在金融领域的人脸识别身份验证、电商领域的商品拍照搜索、医疗领域的智能影像诊断、机器人/无人车上作为视觉输入系统等，包括许多有意思的场景：照片自动分类(图像识别+分类)、图像描述生成(图像识别+理解)等等。

2. 语音技术的发展历史

语言交流是人类最直接最简洁的交流方式。长久以来，让机器学会“听”和“说”，实现与人类间的无障碍交流一直是人工智能、人机交互领域的一大梦想。

早在电子计算机出现之前，人们就有了让机器识别语音的梦想。1920年生产的“Radio Rex”玩具狗可能是世界上最早的语音识别器，当有人喊“Rex”的时候，这只狗能够从底座上弹出来。

但实际上它所用到的技术并不是真正的语音识别，而是通过一个弹簧，这个弹簧在接收到500赫兹的声音时会自动释放，而500赫兹恰好是人们喊出“Rex”中元音的第一个共振峰。

第一个真正基于电子计算机的语音识别系统出现在1952年，AT&T贝尔实验室开发了一款名为Audrey的语音识别系统，能够识别10个英文数字，正确率高达98%。

70年代开始出现了大规模的语音识别研究，但当时的技术还处于萌芽阶段，停留在对孤立词、小词汇量句子的识别上。

上世纪80年代是技术取得突破的时代，一个重要原因是全球性的电传业务积累了大量文本，这些文本可作为机读语料用于模型的训练和统计。研究的重点也逐渐转向大词汇量、非特定人的连续语音识别。

那时最主要的变化来自用基于统计的思路替代传统基于匹配的思路，其中的一个关键进展是隐马尔科夫模型(HMM)的理论和应用都趋于完善。

工业界也出现了广泛的应用，德州仪器研发了名为Speak& Spell语音学习机，语音识别服务商Speech Works成立，美国国防部高级研究计划局(DARPA)也赞助支持了一系列语音相关的项目。

90年代是语音识别基本成熟的时期，主流的高斯混合模型GMM-HMM框架逐渐趋于稳定，但识别效果与真正实用还有一定距离，语音识别研究的进展也逐渐趋缓。

由于80年代末、90年代初神经网络技术的热潮，神经网络技术也被用于语音识别，提出了多层感知器-隐马尔科夫模型(MLP-HMM)混合模型。但是性能上无法超越GMM-HMM框架。

突破的产生始于深度学习的出现。随着深度神经网络(DNN)被应用到语音的声学建模中，人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。

基于GMM-HMM的语音识别框架被基于DNN-HMM的语音识别系统所替代，而随着系统的持续改进，又出现了深层卷积神经网络和引入长短时记忆模块(LSTM)的循环神经网络(RNN)，识别效果得到了进一步提升，在许多(尤其是近场)语音识别任务上达到了可以进入人们日常生活的标准。

于是我们看到以Apple Siri为首的智能语音助手、以Echo为首的智能硬件入口等等。

而这些应用的普及，又进一步扩充了语料资源的收集渠道，为语言和声学模型的训练储备了丰富的燃料，使得构建大规模通用语言模型和声学模型成为可能。

3. 自然语言处理的发展历史

人类的日常社会活动中，语言交流是不同个体间信息交换和沟通的重要途径。因此，对机器而言，能否自然地与人类进行交流、理解人们表达的意思并作出合适的回应，被认为是衡量其智能程度的一个重要参照，自然语言处理也因此成为了绕不开的议题。

早在上世纪50年代，随着电子计算机的出现，出现了许多自然语言处理的任务需求，其中最典型的就是机器翻译。

当时存在两派不同的自然语言处理方法：基于规则方法的符号派和基于概率方法的随机派。受限于当时的数据和算力，随机派无法发挥出全部的功力，使得规则派的研究略占上风。

体现到翻译上，人们认为机器翻译的过程是在解读密码，试图通过查询词典来实现逐词翻译，这种方式产出的翻译效果不佳、难以实用。

当时的一些成果包括1959年宾夕法尼亚大学研制成功的TDAP系统(Transformation and Discourse Analysis Project，最早的、完整的英语自动剖析系统)、布朗美国英语语料库的建立等。

IBM-701计算机进行了世界上第一次机器翻译试验，将几个简单的俄语句子翻译成了英文。这之后苏联、英国、日本等国家也陆续进行了机器翻译试验。

1966年，美国科学院的语言自动处理咨询委员会(ALPAC)，发布了一篇题为《语言与机器》的研究报告，报告全面否定了机器翻译的可行性，认为机器翻译不足以克服现有困难、投入实用。

这篇报告浇灭了之前的机器翻译热潮，许多国家开始消减在这方面的经费投入，许多相关研究被迫暂停，自然语言研究陷入低谷。

许多研究者痛定思痛，意识到两种语言间的差异不仅体现在词汇上，还体现在句法结构的差异上，为了提升译文的可读性，应该加强语言模型和语义分析的研究。

里程碑事件出现在1976 年，加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发

了名为TAUM-METEO的机器翻译系统，提供天气预报服务。这个系统每小时可以翻译6-30万个词，每天可翻译1-2千篇气象资料，并能够通过电视、报纸立即公布。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/4

尾页