数据科学研究的近况与趋势全解
发布时间:2021-09-15 14:49:41 所属栏目:大数据 来源:互联网
导读:大数据时代的到来催生了一门新的学科数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业
|
从复杂计算到简单计算的转变表明人们对数据产品开发的理念从完美主义回归至实用主义。数据科学是一门实践性很强的学科,现阶段其研究主要关注的是实用性,即解决当前社会亟待解决的实际问题,而不是复杂计算的实现。
8. 数据产品开发及数据科学的嵌入式应用
作为数据科学的特有研究内容,数据产品开发将成为未来研究重要课题。在数据科学中,所谓的数据产品(Data Products)并不限于“数据形态”的产品,而泛指“能够通过数据来帮助用户实现其某一个(些)目标的产品”。可见,数据产品是指在数据科学项目中形成,能够被人、计算机以及其他软硬件系统消费、调用或使用,并满足他们(它们)某种需求的任何产品,包括数据集、文档、知识库、应用系统、硬件系统、服务、洞见、决策及它们的各种组合。以Google眼镜为例,虽然其产品形态上看似乎是“眼镜类产品”,但从其主要竞争力之源看,确实属于“数据产品”。
数据产品开发主要关注的是如何将数据科学的理论融入传统产品开发实践之中,进而实现产品的更新换代和用户体验的提升。未来,数据产品开发将嵌入至传统产品的研发之中,二者的界限越来越模糊。如何将数据科学家的创造性设计、批判性思考和好奇性提问的职业素质融入产品研发之中,从而实现传统产品的增值和核心竞争力的提升是未来数据产品开发的难点所在。在此背景下,以数据为中心的设计思维将会是数据产品开发的主要思维模式。同时,良好的用户体验将成为产品开发的主要评价指标之一。
数据产品开发的兴起将推动数据科学的嵌入式应用。数据科学将作为传统产品的创新点、增值点和竞争力之源,成为产品开发的必要环节,数据科学与领域实呈现出了高度融合的趋势。
9. 专家及公众数据科学的兴起
在传统数据分析中,专家,尤其是领域专家是知识的主要来源之一。例如,本体的建设需要由领域专家完成;专家系统中的知识库建立在专家的知识之上。但是,在大数据时代,专家余(ProAm)成为数据处理项目的主要贡献者。与专家不同的是,专家余是指其能力在专家与业务之间的准专家型人群。近年来,众包(包括众创、众筹等)成为大数据时代的重要数据处理模式,其主要参与者均为专家余,而并非是严格意义上的专家或业余人群。例如,与传统意义上的专家编写的百科全书不同,Wikipedia是由来自各领域的专家余共同完成的知识库。
众包的广泛应用为传统知识库建设中的数据量与形式化程度之间的矛盾提供了新的解决方案。在传统知识库建设中,要么形式化程度高,但数据量不够,反之亦然。众包数据处理模式的出现使位于数据链长尾的专家余成为知识的主要贡献者和积极参与者。从协同方式看,众包中大规模协同可以分为机器协同、人机协同和人际协同三种表现形式。其中,人机协同是数据科学研究的重要课题。例如,混合智能——人与机器的互补型智能正成为人工智能的新课题。再如,语义Web技术的出现为人机协同提供了一种重要的技术支撑。
公众数据科学(Citizen Data Science)是专家余和大规模协同在数据科学领域的应用的主要表现形式之一。所谓的公众数据科学属于公众科学(Citizen Science),是指公众参与的数据科学,与数据科学(Data Science)的区别在于参与研究者以非职业的兴趣爱好者和志愿者为主。也就是说,公众数据科学是一种基于众包和专家余的准数据科学,也是在数据科学成为一门广为接受的正式科学之前的过渡型理论。
10. 数据科学家与人才培养的探讨
数据科学项目任务往往是富有挑战性的工作,每一项任务都是独一无二的,对工作人员的要求超出数据工程师的能力范畴,亟待由一类新型人才——数据科学家来承担。从Drew Convey的数据科学维恩图可看出,数据科学具有三个基本要素,即理论(统计学与数学知识)、实践(领域实战)和精神(黑客精神)。可见,数据科学与传统科学的人才需求不同,前者不仅要求传统科学中的理论与实践,而且还需要有数据科学家的“精神”素质,即原创性设计、批判性思考和好奇心地提问的能力。
因此,如何培养“理论、实践和精神为一体”的综合性人才是未来研究的重要课题。相关研究主要以下四个层面开展:
办学层次,如何培养本科、硕士、博士层次的数据科学人才。目前,国内和国外对数据科学人才培养层次的关注点不同,分别关注的是本科层次和硕士层次人才的培养,但对博士层次的人才的讨论相对少;
专业设置:是否需要设立数据科学专业?例如,国内主要讨论的是如何建设“数据科学与大数据技术”专业。
学科方向的选择:如何将数据科学与传统学科向结合,确定数据科学的学科地位;
课程改革:如何完成传统课程的改革以及数据科学新课程的创造性设计。
结论
数据科学是一门极其特殊的新兴学科,具有与其他学科不同的新特征,例如思维模式的转变(从数据范式到知识范式的转变)、对数据认识的变化(从数据的被动属性到主动属性的转移)、指导思想的变化(实用主义和现实主义的回归)、以数据产品开发为主要目的(数据成为传统产品的主要创新点)、专业数据科学与专业中的数据科学的差异性以及数据科学的三要素(不仅涉及理论和实践,而且还包括精神素质)。因此,数据科学的研究不能简单照搬传统学科的经验,应尊重其特殊使命和属性。为此,我们对数据科学研究者提出如下几点建议:
正确认识数据科学。正确认识数据科学的内涵是有效学习和规范研究数据科学的前提。目前,部分学者误以为“数据科学=统计学+机器学习”,过于强调统计学和机器学习,而忽略了数据科学本身。其实,统计学和机器学习是数据科学的理论基础,而并非其核心内容。数据科学具有区别与其他学科的独特的研究使命、研究视角、思维模式、做事原则和知识体系。如果脱离了这些独到之处,数据科学的学习和研究将发生方向性的误读和本质性的扭曲。
突出数据的主动属性。数据科学的一个重要贡献或价值就在于改变了人们对数据的研究方向,即从被动属性转向主动属性。一直以来,人们习惯性地把数据当做被动或死的东西,关注的是“你能对数据做什么?”,如模式定义,结构化处理和预处理,都试图将复杂数据转换成简单数据。但是,大数据时代更加关注的是数据的另一个属性——主动属性,强调的是“数据能给你带来什么?”,如数据驱动型应用、以数据为中心的设计、让数据说话、数据洞见等,将复杂性认为数据的自然属性,开始接受数据的复杂性。研究方向从数据的被动属性到主动属性的转变是学习和研究这一门新学科的基本出发点。如果忽略了这一点,容易将数据科学当成数据工程来学习和研究。
平衡数据科学的三个要素。与其他课程,尤其是技术类课程不同的是,数据科学既包括理论和实践,更需要精神——原创性设计、批判性思考和好奇性提问的素质。因此,数据科学的学习中不仅要强调理论联系实际,而且还不能忽略对数据科学家精神的培养。积极参与数据科学相关的开源项目和竞赛类项目是兼顾数据科学的三个基本要素的两个重要捷径。
侧重培养信心和兴趣,学会跟踪数据科学的最新动态。一方面,数据科学建立在统计学和机器学习等基础理论之上,学习门槛较高,因此,培育自己对数据科学的学习信心和兴趣尤为重要;另一方面,数据科学仍属于一门快速发展的新兴学科,其理念、理论、方法、技术和工具在不断变化之中,要求我们必须掌握动态跟踪数据科学领域的国际顶级会议、重要学术期刊、主要研究机构、代表性人物和标志性实践的能力。
重视试验设计及假设检验。试验设计是数据科学项目的重要活动之一。数据科学家应根据数据科学项目的研究目的,有创造性地提出研究假设,并设计对应的试验,最终通过这些试验达到假设检验的目的。以华盛顿大学和加州大学伯克利分校的数据科学专业人才培养方案为例,分别开出了课程《应用统计与试验设计(Applied Statistics & Experimental Design)和《试验与因果分析(Experiments and Causality)》,重点培养学生的试验设计和假设检验的能力。
不要忽视因果分析。在大数据时代,很多人误以为“因果分析不再重要了”,并把研究重点仅限在相关分析。相关分析只能用于识别事物之间的关联关系,而无法指导如何优化和干预这种相关关系。因此,当相关关系发生变化或需要人为干预相关关系时,必须进一步研究其因果关系。在数据科学项目中,数据科学家的关注重点是发现各种可能的关联关系,而关联关系的产生机制和优化方法需要由领域专家完成。加州大学伯克利分校和哥伦比亚大学分别开设《实验与因果分析(Experiments and Causality)》和《因果推理与数据科学(Causal Inference for Data Science)》,均反映了因果分析在数据科学中的重要地位。
以数据产品开发为主要抓手。数据产品开发是学习与研究数据科学的主要抓手之一。需要注意的是,数据产品不限于数据形态的产品,任何用数据来帮助目标用户实现其某一目的的产品都可视为数据产品。数据是未来产品的创新点和增值点。因此,向数据产品的转变是传统产品的重要发展趋势。以Google眼镜为例,其创新源自数据,而不在于其外观和选材,以数据为中心的产品设计才是该产品与传统的眼镜类产品的根本区别。可见,数据产品开发是数据科学的最为直接且最为普遍的应用。 (编辑:无锡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
