数据科学研究的近况与趋势全解

发布时间：2021-09-15 14:49:41 所属栏目：大数据来源：互联网

导读：大数据时代的到来催生了一门新的学科数据科学。首先，本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题，并提出了专业数据科学与专业中的数据科学之间的区别与联系；其次，分析现阶段数据科学的研究特点，并分别提出了专业数据科学、专业

　　数据加工（Data Wrangling 或Data Munging）：数据科学中关注的新问题之一。为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的精准度，数据科学项目需要对原始数据进行一定的加工处理工作——数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等。值得一提的是，与传统数据处理不同的是，数据科学中的数据加工更加强调的是数据处理中的增值过程，即如何将数据科学家的创造性设计、批判性思考和好奇性提问融入数据的加工活动之中。

　　数据计算：在数据科学中，计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。比较有代表性的是Google三大云计算技术（GFS、BigTable和MapReduce）、Hadoop MapReduce、Spark和YARN。计算模式的变化意味着数据科学中所关注的数据计算的主要瓶颈、主要矛盾和思维模式发生了根本性变化。

　　数据管理：在完成“数据加工”和“数据计算”之后，还需要对数据进行管理与维护，以便进行（再次进行）“数据分析”以及数据的再利用和长久存储。在数据科学中，数据管理方法与技术也发生了重要变革——不仅包括传统关系型数据库，而且还出现了一些新兴数据管理技术，如NoSQL、NewSQL技术和关系云等。

　　数据分析：数据科学中采用的数据分析方法具有较为明显的专业性，通常以开源工具为主，与传统数据分析有着较为显着的差异。目前，R语言和Python语言已成为数据科学家较为普遍应用的数据分析工具。

　　数据产品开发：“数据产品”在数据科学中具有特殊的含义——基于数据开发的产品的统称。数据产品开发是数据科学的主要研究使命之一，也是数据科学区别于其他科学的重要区别。与传统产品开发不同的是，数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据产品开发能力也是数据科学家的主要竞争力之源。因此，数据科学的学习目的之一是提升自己的数据产品开发能力。

　　4. 专业数据科学及专业中的数据科学

　　数据科学是一门与领域知识和行业实践高度交融的学科。从目前的研究现状看，数据科学可以分为两类：专业数据科学与专业中的数据科学。其中，“专业数据科学”是以独立学科的形式存在，与其他传统学科（如计算机科学、统计学、新闻学、社会学等）并列的一门新兴科学；“专业中的数据科学”是指依存于某一专业领域中的大数据研究，其特点是与所属专业的耦合度较高，难以直接移植到另一个专业领域，如数据新闻（Data Journalism）、材料数据科学(Materials Data Science)、大数据金融(Big Data Finance)、大数据社会、大数据伦理（Big Data Ethics）和大数据教育（Big Data Education）等。

　　专业数据科学与专业中的数据科学的联系如下：专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具；相对于专业中的数据科学，专业数据科学更具有共性和可移植性，并为不同专业中的数据科学研究奠定了理论基础；专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用。

　　数据科学的研究热点

　　目前，数据科学的研究特点是对本质问题的系统研究少，然而对周边问题的讨论较多，可从以下四个方面进行分类分析。

　　1. 周边问题仍为研究热点

　　从文献分布看，数据科学的研究主题可以分为两类：核心问题和周边问题。前者代表的是数据科学的基础理论——数据科学特有的理念、理论、方法、技术、工具、应用及代表性实践；后者代表的是数据科学的底层理论（理论基础，如统计学、机器学习等）、上层应用（应用理论，如数据新闻、大数据金融、大数据社会、大数据生态系统等）以及相关研究（如云计算、物联网、移动计算等）。文献数量和研究深度表明，现阶段的数据科学研究热点仍聚焦在周边问题的讨论之上，而对数据科学的核心问题的研究远远不够。数据科学的周边问题的研究主要集中在：

　　大数据挑战及数据科学的必要性。在大数据时代，挑战和机会并存：挑战不仅来自于数据量（Volume），而且还涉及其多个V特征，如种类多（Variety）、速度要求高（Velocity）和价值密度低（Value）。因此,社会与科技的发展亟待一门新的学科——数据科学，并对大数据时代的新问题和新思路进行系统研究。

　　数据科学对统计学和计算机科学的继承与创新。一方面数据科学作为新的研究方向，进一步拓展了统计学和计算机科学与技术的研究范畴；另一方面，数据科学不仅继承了统计学和计算机科学等基础理论，而且对其进行了创新与发展，逐渐成为一门独立学科。

　　新技术在数据科学中的重要地位。云计算、物联网、移动计算等新技术的兴起拓展了人的数据获取、存储和计算能力，促使大数据时代的到来，成为数据学科诞生的必要条件。同时，数据科学中需要重点引入Spark、Hadoop、NoSQL等新兴技术，从而更好地面对大数据挑战。新技术的应用意味着数据科学对数据及其管理的认识发生了根本性变化——不仅开始接受了数据的复杂性，而且数据管理的理念从传统的完美主义者转向现实主义，“数据在先，模式在后或无模式”的数据管理范式、BASE原则以及CAP理论等新理念已成为数据科学的基本共识。

　　数据科学对特定领域的影响。大数据及其背后的数据科学在特定领域的应用是近几年的热门话题，尤其在生命科学、医疗保健、政府治理、教学教育和业务管理等领域的广泛应用，出现了量化自我、数据新闻、大数据分析学等新的研究课题。

　　数据科学领域的人才培养。与传统科学领域不同的是，数据科学领域人才培养目的是培养学生的“以数据为中心的思考能力”。目前，相关研究主要涉及四个主题：数据科学课程的建设、相关课程的教学改革、跨学科型人才培养以及女性数据科学家的培养。从总体上看，数据科学的人才培养目的并不是数据工程师，而是数据科学家，尤其培养具有3C精神的数据科学家——原创性（Creative）设计、批判性(Critical)思考和好奇性（Curious）提问。

　　2. 专业数据科学研究中相对热门话题

　　从研究视角看，数据科学的研究可以分为两类：专业数据科学和专业中的数据科学。前者代表的是将数据科学当作一门独立于传统科学的新兴学科来研究，强调的是其学科基础性：后者代表的是将数据科学当作传统学科的新研究方向和思维模式来研究，强调的是数据科学的学科交叉性。从目前的研究现状看，专业数据科学研究的热热门话题有：

　　DIKW模型。DIKW模型刻画的是人类对数据的认识程度的转变过程。通常认为，数据科学的研究任务是将数据转换成信息（Information）、知识（Knowledge）或（和）智慧(Wisdom)。从数据到智慧的转变过程是一种从不可预知到可预知的增值过程，即数据通过还原其真实发生的背景（Context）成为信息，信息赋予其内在含义（Meaning）之后成为知识，而知识通过理解转变成智慧。

　　数据分析学（Data Analytics）。大数据分析研究正在成为一门相对成熟的研究方向——数据分析学。需要注意的是，数据分析（Data Analysis）与数据分析学是两个不同的概念：前者强调的是数据分析活动本身，而后者更加强调的是数据分析中的方法、技术和工具。目前，大数据分析研究中的热门话题有两个：一是大数据分析学，尤其是大数据分析算法和工具的开发；另一个面向特定领域的大数据分析，如面向物流与供应链管理、网络安全以及医疗健康的大数据分析学。论文给出了数据分析的主要类型及常见错误。

　　数据化（Datafication）。数据化是将客观世界以及业务活动以数据的形式计量和记录，形成大数据，以便进行后续的开发利用。除了物联网和传感器等公认的研究课题，量化自我（Quantified Self）也在成为数据化的热门话题。数据化是大数据时代初级阶段的主要关注的问题，随着大数据的积淀，人们的研究焦点将从业务的数据化转向数据的业务化，即研究重点将放在“基于数据定义和优化业务”之上。

　　数据治理（Data Governance）。数据治理是指数据管理的管理。目前，相关研究主要集中在顶层设计、实现方法、参考框架以及如何保证数据管理的可持续性。此外，数据治理作为数据能力成熟度评估模型（Data Maturity Model）的关键过程域，重点关注的是如何通过数据治理提升组织数据管理能力的问题。DMM中定义的关键过程域“数据治理”包括3个关键过程：治理管理（Governance Management）、业务术语表（Business Glossary）和元数据管理（Metadata Management）。

　　数据质量。大数据的质量与可用性之间内在联系的讨论已成为现阶段数据科学的热点问题之一，主要研究议题集中在大数据中的质量问题会不会导致数据科学项目的根本性错误以及大数据时代背景下的数据可用性的挑战及新研究问题。但是，传统数据管理和数据科学对数据质量的关注点不同。传统数据管理主要从数据内容视角关注质量问题，强调的是数据是否为干净数据(Clean Data)/脏数据(Dirty Data)；数据科学主要从数据形态视角关注质量问题，重视的是数据是否为整齐数据（Tidy Data）/混乱数据（Messy Data）。所谓的整齐数据是指数据的形态可以直接支持算法和数据处理的要求。例如，着名的数据科学家Hadley Wickham 提出了整齐数据和数据整齐化处理（Data Tidying）的概念，并主张整齐数据应遵循三个基本原则: 每个观察占且仅占一行、每个变量占且仅占一列以及每一类观察单元构成一个关系表。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/7

首页

尾页