10分钟带你读完AI的三生三世
发布时间:2021-12-31 15:41:51 所属栏目:云计算 来源:互联网
导读:本文从AI最基本的几个模块(计算机视觉、语音识别、自然语言处理、决策规划系统)着手,回顾其一路以来的发展脉络,以史为镜、正视未来。 AI作为2016年以来最热门的词汇,人们对之也持有不同的看法:有人在怀疑泡沫即将破裂、有人坚信这场变革会带来巨大的机会
|
运用到视频上,主要是对视频进行滤镜处理。这些技术目前已经相对成熟,在各类P图软件、视频处理软件中随处可见。 图像识别检测的过程包括图像预处理、图像分割、特征提取和判断匹配,也是基于深度学习的端到端方案。可以用来处理分类问题(如识别图片的内容是不是猫)、定位问题(如识别图片中的猫在哪里)、检测问题(如识别图片中有哪些动物、分别在哪里)、分割问题(如图片中的哪些像素区域是猫)等。 这些技术也已比较成熟,图像上的应用包括人脸检测识别、OCR(Optical Character Recognition,光学字符识别)等,视频上可用来识别影片中的明星等。 当然,深度学习在这些任务中都扮演了重要角色。 传统的人脸识别算法,即使综合考虑颜色、形状、纹理等特征,也只能做到95%左右的准确率。而有了深度学习的加持,准确率可以达到99.5%,错误率下降了10倍,从而使得在金融、安防等领域的广泛商业化应用成为可能。 OCR领域,传统的识别方法要经过清晰度判断、直方图均衡、灰度化、倾斜矫正、字符切割等多项预处理工作,得到清晰且端正的字符图像,再对文字进行识别和输出。 而深度学习的出现不仅省去了复杂且耗时的预处理和后处理工作,更将字准确率从60%提高到90%以上。 图像理解本质上是图像与文本间的交互。可用来执行基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题,输出答案)等。 在传统的方法下:基于文本的图像搜索是针对文本搜索最相似的文本后,返回相应的文本图像对;图像描述生成是根据从图像中识别出的物体,基于规则模板产生描述文本;图像问答是分别对图像与文本获取数字化表示,然后分类得到答案。 而有了深度学习,就可以直接在图像与文本之间建立端到端的模型,提升效果。图像理解任务目前还没有取得非常成熟的结果,商业化场景也正在探索之中。 可以看到,计算机视觉已经达到了娱乐用、工具用的初级阶段。 照片自动分类、以图搜图、图像描述生成等等这些功能,都可作为人类视觉的辅助工具。人们不再需要靠肉眼捕捉信息、大脑处理信息、进而分析理解,而是可以交由机器来捕捉、处理和分析,再将结果返回给人类。 而往未来看,计算机视觉有希望进入自主理解、甚至分析决策的高级阶段,真正赋予机器“看”的能力,从而在智能家居、无人车等应用场景发挥更大的价值。 8. 自然语言处理的现在 自然语言处理中的几个核心环节包括知识的获取与表达、自然语言理解、自然语言生成等等,也相应出现了知识图谱、对话管理、机器翻译等研究方向,与前述的处理环节形成多对多的映射关系。 由于自然语言处理要求机器具备的是比“感知”更难的“理解”能力,因此其中的许多问题直到今天也未能得到较好的解决。 知识图谱是基于语义层面对知识进行组织后得到的结构化结果,可以用来回答简单事实类的问题。 包括语言知识图谱(词义上下位、同义词等)、常识知识图谱(“鸟会飞但兔子不会飞”)、实体关系图谱(“刘德华的妻子是朱丽倩”)。 知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。 举例来说,针对互联网上的一句文本“刘德华携妻子朱丽倩出席了电影节”,我们可以从中取出“刘德华”、“妻子”、“朱丽倩”这几个关键词,然后得到“刘德华-妻子-朱丽倩”这样的三元表示。 同样地,我们也可以得到“刘德华-身高-174cm”这样的三元表示。将不同领域不同实体的这些三元表示组织在一起,就构成了知识图谱系统。 语义理解是自然语言处理中的最大难题,这个难题的核心问题是如何从形式与意义的多对多映射中,根据当前语境找到一种最合适的映射。 以中文为例,这里面需要解决4个困难: 首先是歧义消除,包括词语的歧义(例如“潜水”可以指一种水下运动,也可以指在论坛中不发言)、短语的歧义(例如“进口彩电”可以指进口的彩电,也可以指一个行动动作)、句子的歧义(例如“做手术的是他父亲”可以指他父亲在接受手术,也可以指他父亲是手术医生); 其次是上下文关联性,包括指代消解(例如“小明欺负小李,所以我批评了他。”,需要依靠上下文才知道我批评的是调皮的小明)、省略恢复(例如“老王的儿子学习不错,比老张的好。”其实是指“比老张的儿子的学习好”); 第三是意图识别,包括名词与内容的意图识别(“晴天”可以指天气也可以指周杰伦的歌)、闲聊与问答的意图识别(“今天下雨了”是一句闲聊,而“今天下雨吗”则是有关天气的一次查询)、显性与隐性的意图识别(“我要买个手机”和“这手机用得太久了”都是用户想买新手机的意图); 最后一块是情感识别,包括显性与隐性的情感识别(“我不高兴”和“我考试没考好”都是用户在表示心情低落)、基于先验常识的情感识别(“续航时间长”是褒义的,而“等待时间长”则是贬义的)。 鉴于以上的这种种困难,语义理解可能的解决方案是利用知识进行约束,来破解多对多映射的困局,通过知识图谱来补充机器的知识。 然而,即使克服了语义理解上的困难,距离让机器显得不那么智障还是远远不够的,还需要在对话管理上有所突破。 目前对话管理主要包含三种情形,按照涉及知识的通用到专业,依次是闲聊、问答、任务驱动型对话。 闲聊是开放域的、存在情感联系和聊天个性的对话,比如“ 今天天气真不错。”“是呀,要不要出去走走?”闲聊的难点在于如何通过巧妙的回答激发兴趣/降低不满,从而延长对话时间、提高粘性; 问答是基于问答模型和信息检索的对话,一般是单一轮次,比如“刘德华的老婆是谁?”“刘德华的妻子朱丽倩,1966年4月6日出生于马来西亚槟城…”。问答不仅要求有较为完善的知识图谱,还需要在没有直接答案的情况下运用推理得到答案; 任务驱动型对话涉及到槽位填充、智能决策,一般是多轮次,比如“放一首跑步听的歌吧”“为您推荐羽泉的《奔跑》”“我想听英文歌”“为您推荐Eminem的《Notafraid》”简单任务驱动型对话已经比较成熟,未来的攻克方向是如何不依赖人工的槽位定义,建立通用领域的对话管理。 历史上自然语言生成的典型应用一直是机器翻译。传统方法是一种名为Phrased-Based Machine Translation(PBMT)的方法:先将完整的一句话打散成若干个词组,对这些词组分别进行翻译,然后再按照语法规则进行调序,恢复成一句通顺的译文。 整个过程看起来并不复杂,但其中涉及到了多个自然语言处理算法,包括中文分词、词性标注、句法结构等等,环环相扣,其中任一环节出现的差错都会传导下去,影响最终结果。 而深度学习则依靠大量的训练数据,通过端到端的学习方式,直接建立源语言与目标语言之间的映射关系,跳过了中间复杂的特征选择、人工调参等步骤。 在这样的思想下,人们对早在90年代就提出了的“编码器-解码器”神经机器翻译结构进行了不断完善,并引入了注意力机制(attention mechanism),使系统性能得到显著提高。 之后谷歌团队通过强大的工程实现能力,用全新的机器翻译系统GNMT(Google Neural Machine Translation)替代了之前的SMT(Statistical machine translation),相比之前的系统更为通顺流畅,错误率也大幅下降。 虽然仍有许多问题有待解决,比如对生僻词的翻译、漏词、重复翻译等,但不可否认神经机器翻译在性能上确实取得了巨大突破,未来在出境游、商务会议、跨国交流等场景的应用前景也十分可观。 随着互联网的普及,信息的电子化程度也日益提高。海量数据既是自然语言处理在训练过程中的燃料,也为其提供了广阔的发展舞台。搜索引擎、对话机器人、机器翻译,甚至高考机器人、办公智能秘书都开始在人们的日常生活中扮演越来越重要的角色。 9. 机器学习的现在 按照人工智能的层次来看,机器学习是比计算机视觉、自然语言处理、语音处理等技术层更底层的一个概念。近几年来技术层的发展风生水起,处在算法层的机器学习也产生了几个重要的研究方向。 首先是在垂直领域的广泛应用。 鉴于机器学习还存在不少的局限、不具备通用性,在一个比较狭窄的垂直领域的应用就成为了较好的切入口。 因为在限定的领域内,一是问题空间变得足够小,模型的效果能够做到更好;二是具体场景下的训练数据更容易积累,模型训练更高效、更有针对性;三是人们对机器的期望是特定的、具体的,期望值不高。 这三点导致机器在这个限定领域内表现出足够的智能性,从而使最终的用户体验也相对更好。 因此,在金融、律政、医疗等等垂直领域,我们都看到了一些成熟应用,且已经实现了一定的商业化。可以预见,在垂直领域内的重复性劳动,未来将有很大比例会被人工智能所取代。 (编辑:无锡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
