10分钟带你读完AI的三生三世

发布时间：2021-12-31 15:41:51 所属栏目：云计算来源：互联网

导读：本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手，回顾其一路以来的发展脉络，以史为镜、正视未来。 AI作为2016年以来最热门的词汇，人们对之也持有不同的看法：有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会

运用到视频上，主要是对视频进行滤镜处理。这些技术目前已经相对成熟，在各类P图软件、视频处理软件中随处可见。

图像识别检测的过程包括图像预处理、图像分割、特征提取和判断匹配，也是基于深度学习的端到端方案。可以用来处理分类问题(如识别图片的内容是不是猫)、定位问题(如识别图片中的猫在哪里)、检测问题(如识别图片中有哪些动物、分别在哪里)、分割问题(如图片中的哪些像素区域是猫)等。

这些技术也已比较成熟，图像上的应用包括人脸检测识别、OCR(Optical Character Recognition，光学字符识别)等，视频上可用来识别影片中的明星等。

当然，深度学习在这些任务中都扮演了重要角色。

传统的人脸识别算法，即使综合考虑颜色、形状、纹理等特征，也只能做到95%左右的准确率。而有了深度学习的加持，准确率可以达到99.5%，错误率下降了10倍，从而使得在金融、安防等领域的广泛商业化应用成为可能。

OCR领域，传统的识别方法要经过清晰度判断、直方图均衡、灰度化、倾斜矫正、字符切割等多项预处理工作，得到清晰且端正的字符图像，再对文字进行识别和输出。

而深度学习的出现不仅省去了复杂且耗时的预处理和后处理工作，更将字准确率从60%提高到90%以上。

图像理解本质上是图像与文本间的交互。可用来执行基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题，输出答案)等。

在传统的方法下：基于文本的图像搜索是针对文本搜索最相似的文本后，返回相应的文本图像对;图像描述生成是根据从图像中识别出的物体，基于规则模板产生描述文本;图像问答是分别对图像与文本获取数字化表示，然后分类得到答案。

而有了深度学习，就可以直接在图像与文本之间建立端到端的模型，提升效果。图像理解任务目前还没有取得非常成熟的结果，商业化场景也正在探索之中。

可以看到，计算机视觉已经达到了娱乐用、工具用的初级阶段。

照片自动分类、以图搜图、图像描述生成等等这些功能，都可作为人类视觉的辅助工具。人们不再需要靠肉眼捕捉信息、大脑处理信息、进而分析理解，而是可以交由机器来捕捉、处理和分析，再将结果返回给人类。

而往未来看，计算机视觉有希望进入自主理解、甚至分析决策的高级阶段，真正赋予机器“看”的能力，从而在智能家居、无人车等应用场景发挥更大的价值。

8. 自然语言处理的现在

自然语言处理中的几个核心环节包括知识的获取与表达、自然语言理解、自然语言生成等等，也相应出现了知识图谱、对话管理、机器翻译等研究方向，与前述的处理环节形成多对多的映射关系。

由于自然语言处理要求机器具备的是比“感知”更难的“理解”能力，因此其中的许多问题直到今天也未能得到较好的解决。

知识图谱是基于语义层面对知识进行组织后得到的结构化结果，可以用来回答简单事实类的问题。

包括语言知识图谱(词义上下位、同义词等)、常识知识图谱(“鸟会飞但兔子不会飞”)、实体关系图谱(“刘德华的妻子是朱丽倩”)。

知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。

举例来说，针对互联网上的一句文本“刘德华携妻子朱丽倩出席了电影节”，我们可以从中取出“刘德华”、“妻子”、“朱丽倩”这几个关键词，然后得到“刘德华-妻子-朱丽倩”这样的三元表示。

同样地，我们也可以得到“刘德华-身高-174cm”这样的三元表示。将不同领域不同实体的这些三元表示组织在一起，就构成了知识图谱系统。

语义理解是自然语言处理中的最大难题，这个难题的核心问题是如何从形式与意义的多对多映射中，根据当前语境找到一种最合适的映射。

以中文为例，这里面需要解决4个困难:

首先是歧义消除，包括词语的歧义(例如“潜水”可以指一种水下运动，也可以指在论坛中不发言)、短语的歧义(例如“进口彩电”可以指进口的彩电，也可以指一个行动动作)、句子的歧义(例如“做手术的是他父亲”可以指他父亲在接受手术，也可以指他父亲是手术医生);

其次是上下文关联性，包括指代消解(例如“小明欺负小李，所以我批评了他。”，需要依靠上下文才知道我批评的是调皮的小明)、省略恢复(例如“老王的儿子学习不错，比老张的好。”其实是指“比老张的儿子的学习好”);

第三是意图识别，包括名词与内容的意图识别(“晴天”可以指天气也可以指周杰伦的歌)、闲聊与问答的意图识别(“今天下雨了”是一句闲聊，而“今天下雨吗”则是有关天气的一次查询)、显性与隐性的意图识别(“我要买个手机”和“这手机用得太久了”都是用户想买新手机的意图);

最后一块是情感识别，包括显性与隐性的情感识别(“我不高兴”和“我考试没考好”都是用户在表示心情低落)、基于先验常识的情感识别(“续航时间长”是褒义的，而“等待时间长”则是贬义的)。

鉴于以上的这种种困难，语义理解可能的解决方案是利用知识进行约束，来破解多对多映射的困局，通过知识图谱来补充机器的知识。

然而，即使克服了语义理解上的困难，距离让机器显得不那么智障还是远远不够的，还需要在对话管理上有所突破。

目前对话管理主要包含三种情形，按照涉及知识的通用到专业，依次是闲聊、问答、任务驱动型对话。

闲聊是开放域的、存在情感联系和聊天个性的对话，比如“ 今天天气真不错。”“是呀，要不要出去走走?”闲聊的难点在于如何通过巧妙的回答激发兴趣/降低不满，从而延长对话时间、提高粘性;

问答是基于问答模型和信息检索的对话，一般是单一轮次，比如“刘德华的老婆是谁?”“刘德华的妻子朱丽倩，1966年4月6日出生于马来西亚槟城…”。问答不仅要求有较为完善的知识图谱，还需要在没有直接答案的情况下运用推理得到答案;

任务驱动型对话涉及到槽位填充、智能决策，一般是多轮次，比如“放一首跑步听的歌吧”“为您推荐羽泉的《奔跑》”“我想听英文歌”“为您推荐Eminem的《Notafraid》”简单任务驱动型对话已经比较成熟，未来的攻克方向是如何不依赖人工的槽位定义，建立通用领域的对话管理。

历史上自然语言生成的典型应用一直是机器翻译。传统方法是一种名为Phrased-Based Machine Translation(PBMT)的方法：先将完整的一句话打散成若干个词组，对这些词组分别进行翻译，然后再按照语法规则进行调序，恢复成一句通顺的译文。

整个过程看起来并不复杂，但其中涉及到了多个自然语言处理算法，包括中文分词、词性标注、句法结构等等，环环相扣，其中任一环节出现的差错都会传导下去，影响最终结果。

而深度学习则依靠大量的训练数据，通过端到端的学习方式，直接建立源语言与目标语言之间的映射关系，跳过了中间复杂的特征选择、人工调参等步骤。

在这样的思想下，人们对早在90年代就提出了的“编码器-解码器”神经机器翻译结构进行了不断完善，并引入了注意力机制(attention mechanism)，使系统性能得到显著提高。

之后谷歌团队通过强大的工程实现能力，用全新的机器翻译系统GNMT(Google Neural Machine Translation)替代了之前的SMT(Statistical machine translation)，相比之前的系统更为通顺流畅，错误率也大幅下降。

虽然仍有许多问题有待解决，比如对生僻词的翻译、漏词、重复翻译等，但不可否认神经机器翻译在性能上确实取得了巨大突破，未来在出境游、商务会议、跨国交流等场景的应用前景也十分可观。

随着互联网的普及，信息的电子化程度也日益提高。海量数据既是自然语言处理在训练过程中的燃料，也为其提供了广阔的发展舞台。搜索引擎、对话机器人、机器翻译，甚至高考机器人、办公智能秘书都开始在人们的日常生活中扮演越来越重要的角色。

9. 机器学习的现在

按照人工智能的层次来看，机器学习是比计算机视觉、自然语言处理、语音处理等技术层更底层的一个概念。近几年来技术层的发展风生水起，处在算法层的机器学习也产生了几个重要的研究方向。

首先是在垂直领域的广泛应用。

鉴于机器学习还存在不少的局限、不具备通用性，在一个比较狭窄的垂直领域的应用就成为了较好的切入口。

因为在限定的领域内，一是问题空间变得足够小，模型的效果能够做到更好;二是具体场景下的训练数据更容易积累，模型训练更高效、更有针对性;三是人们对机器的期望是特定的、具体的，期望值不高。

这三点导致机器在这个限定领域内表现出足够的智能性，从而使最终的用户体验也相对更好。

因此，在金融、律政、医疗等等垂直领域，我们都看到了一些成熟应用，且已经实现了一定的商业化。可以预见，在垂直领域内的重复性劳动，未来将有很大比例会被人工智能所取代。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/4

首页

尾页