数据科学研究的近况与趋势全解

发布时间：2021-09-15 14:49:41 所属栏目：大数据来源：互联网

导读：大数据时代的到来催生了一门新的学科数据科学。首先，本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题，并提出了专业数据科学与专业中的数据科学之间的区别与联系；其次，分析现阶段数据科学的研究特点，并分别提出了专业数据科学、专业

　　在数据科学中，数据加工是指数据的创造性增值过程，包括两种表现形式：数据打磨（data wrangling）或数据改写（data munging）。与数据预处理不同的是，数据加工更加强调的是如何将数据科学家的3C精神融入数据处理工作之中，从而达到数据增值的目的。因此，数据加工并不仅限于技术工作的范畴，而且还涉及到艺术层面的创造，如需要采用数据柔术（Data Jujitsu）和整齐化处理（Data Tidying）的方法进行数据加工处理。

　　数据加工概念的提出意味着人们对数据复杂性的认识发生了重要的变革，即开始接受数据的复杂性特征，认为复杂性是数据本身的固有特征。与此同时，数据准备的关注点转向另一个重要问题，即如何发挥人的增值作用。目前，数据加工的研究主要挑战集中在：

　　数据打磨或数据改写理念的提出：如何在数据科学项目中充分发挥数据科学家的作用，进而实现数据处理活动的增值效果；

　　数据打磨或数据改写技术的实现：基于Python、R以及大数据技术实现数据加工的理念与方法；

　　数据柔术：如何有艺术性地将数据转换为产品；

　　整齐化处理：将数据转换为大数据算法和大数据技术能够直接处理的形态。

　　6. 服务质量——精准度还是用户体验

　　查全率和查准率是传统数据研究中评价服务质量的两个核心指标。但是，当总体为未知、数据量迅速增长、数据种类不断变化和数据处理速度要求高时，查全率和查准率的追求成为不可能。因此，在大数据环境下，更加重视的是用户体验，而不是查全率和查准率。在用户体验的评价中，响应速度是最为重要指标之一。Aberdeen Group的调查发现“页面的显示速度每延迟1秒，网站访问量就会降低11%，从而导致营业额减少7%，顾客满意度下降16%”Google发现“响应时间每延迟0.5秒，查询数将会减少20%”；Amazon发现“响应时间延迟0.1秒，营业额下降1%。

　　目前，用户体验研究的主要挑战在于如何确保较快的响应速度、设计人机交互、实现服务虚拟化以及提供按需服务。

　　7. 数据分析——解释性分析还是预测性分析

　　理论完美主义者认为只有掌握了因果关系才能正确认识和有效利用客观现象。传统数据分析往往是理论完美主义的指导下完成，试图通过对历史数据进行深度分析之后，达到深刻理解自我或解释客观现象的目的，侧重的是因果分析，即以解释型分析为主。

　　在大数据环境下，数据分析的重点从因果分析转向相关分析，更加重视的是事物之间的相关关系。然而，在这种变革的背后是数据分析指导思想的根本性变化——从理论完美主义转向现实实用主义，侧重于数据分析的实用性，更加重视对未来的预测，即预测型分析。相对于解释性分析，预测性分析具有更强的时效性，可以迅速洞见事物之间的内在联系以及其商业价值。

　　因此，数据科学的一个重要特点是预测性分析和解释性分析的分离。预测性分析主要由数据科学家完成，一般不需要领域知识；解释性分析则发生在预测性分析之后，数据科学家将预测性分析中的洞察结果转交给领域专家，由领域专家负责完成解释性分析。可见，数据科学家一般不做解释性分析，或者说，解释性分析往往超出数据科学家的能力范畴，需要由具体领域的专家完成。预测性分析和解释性分析的分离也是数据科学家和领域专家之间协同工作的主要实现方式。

　　大数据分析的主要挑战源自于数据的复杂性、噪声数据的分析、数据的依赖度。提出面向大数据分析的新方法、技术与工具，尤其是大数据分析方法的动态演化、实时计算和弹性计算成为相关研究中亟待解决的问题。

　　8. 算法评价——复杂度还是可扩展性

　　复杂度，尤其是时间复杂度和空间复杂度，是传统算法的两个重要评价指标，分别代表的是算法的运行所需的时间成本和内存成本。但是，在大数据环境下，算法设计的一个重要特点是上层需求和底层数据处于动态变化之中，因此，算法应支持按需服务和数据驱动型应用。例如，谷歌于2008年推出预测流感疫情工具——谷歌流感趋势（Google Flu Trends，GFT），及时准确预测了当时H1N1在全美范围的传播，但是，2013年1月的估计比实际数据高两倍，主要原因之一是缺乏算法动态性（Algorithm Dynamics）和用户使用行为习惯的变化。

　　在大数据时代，算法的可扩展性主要代表的是算法的可伸缩能力。目前，相关研究的主要挑战在于低维度算法在高维数据中的应用、维度灾难、数据规约以及数据密集型应用。

　　9. 研究范式——第三范式还是第四范式

　　图灵奖获得者Jim Gray 曾提出，人类科学研究活动已经历过三种不同范式的演变过程（原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”），目前正在从“计算科学范式”转向“数据密集型科学发现范式（Data-intensive Scientific Discovery）”。第四范式，即“数据密集型科学发现范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识，无须直接面对所研究的物理对象。例如，在大数据时代，天文学家的研究方式发生了新的变化——其主要研究任务变为从海量数据库中发现所需的物体或现象的照片，而不再需要亲自进行太空拍照。

　　第四范式的提出反映了人们对世界的固有认识发生了根本性的变化——从二元认识（精神世界/物理世界）转向三元认识（精神世界/数据世界/物理世界）,即在原有的“精神世界”和“物理世界”之间出现了一个新的世界——数据世界。因此，科学研究者往往直接面对的是数据世界，通过对数据世界的研究达到认识和改造物理世界的目的。对于科学研究者而言，数据世界中已积累的“历史数据”往往足以完成一项科研任务，数据科学家不需要亲自到物理世界采用问卷和访谈的方法收集数据——“调研数据”。同时，与“调研数据”相比，“历史数据”更具有客观性和可信度。目前，相关研究主要挑战在于第三范式与第四范式的区别、第四范式的内涵、理论深入研究以及领域应用。

　　10. 人才培养——数据工程师还是数据科学家

　　传统科学领域中，数据相关的人才培养的目标定位于数据工程师——从事数据的组织、管理、备份、恢复工作的人才。但是，在大数据时代，数据工程师无法胜任数据科学的研究任务，需要的是一类全新的人才——数据科学家。二者的主要区别在于：数据工程师负责的是数据的管理，而数据科学家擅长的是基于数据的管理，如基于数据的决策、产品开发、业务定义等。

　　目前，关于数据科学家的研究及人才培养的挑战在于正确分析岗位职责与用人需求、数据科学家的素质与能力要求、数据科学项目管理以及数据科学家的职业规划。

　　数据科学研究的发展趋势

　　在梳理研究热点、争议及挑战的基础上，我们需要进一步分析数据科学研究的发展趋势。从整体上讲，数据科学研究的主要发展趋势可以总结为：

　　“思维模式的多样化和研究范式的变迁”是根本趋势。其中，思维模式的多样化主要体现在数据范式的兴起以及其与传统的知识范式并存；研究范式的变迁是指科学研究范式从“计算科学范式”转向“数据密集型科学发现范式”，进而改变人们对世界的二元认识，相关研究重点将转变为通过数据世界的研究认识和改造物理世界。思维模式的多样化和研究范式的变迁对数据科学研究产生深远影响，将改变人们对数据的认识视角、开发动因和利用方式。

　　“专业中的数据科学”是研究热点。大数据时代，各专业领域面临的主要挑战在于如何解决新兴数据与传统知识之间的矛盾，即数据已经变了，但知识没有更新，各学科中的传统知识无法解决大数据带来的新问题。因此，大数据时代的机遇与挑战即将成为各学科领域研究的新方向，也就是说，专业中的数据科学成为相关研究的热点问题。

　　“专业数据科学”是研究难点。“专业中的数据科学”从不同专业视角解读数据科学，存在研究兴趣点和研究发现（如理论、方法、技术、工具和典型实践等）的差异性，甚至可能出现相互重叠与冲突的现象。在这种背景下，如何将分散不同学科领域中的共性问题及通用结论提炼成一门新的学科——“专业数据科学”，进而为各个学科领域的研究提供新的理论基础是未来研究的难点所在。

　　“数据生态系统的建设”是终极问题。数据学科是一门实践性极强的学科，其研究和应用均不能脱离具体领域。数据科学的研究和应用将会超出技术范畴，还涉及到发展战略、基础设施、人力资源、政策、法律与文化环境等诸多因素。因此，数据科学需要解决的终极问题是将大数据放在一个完整的生态系统之中去认识与利用，从生态系统层次统筹和规划，避免片面认识数据问题，进而推动数据、能源和物质之间的相互转化。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/7

首页

尾页