加入收藏 | 设为首页 | 会员中心 | 我要投稿 无锡站长网 (https://www.0510zz.cn/)- 运维、开发、CDN、操作系统、语音技术!
当前位置: 首页 > 大数据 > 正文

数据科学研究的近况与趋势全解

发布时间:2021-09-15 14:49:41 所属栏目:大数据 来源:互联网
导读:大数据时代的到来催生了一门新的学科数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业
 
  1. 预测模型及相关分析的重视
 
  数据科学的研究责任在于预测模型而不在于解释模型。以预测模型为中心的数据科学更偏向于实用主义,更加关注的是“对未来的预测能力”,而不是“对过去的解释水平”。因此,数据科学的研究更加重视的是“现在能为未来做什么?”,而不是“过去对现在的影响是什么?”
 
  数据科学中重视预测模型而不是解释模型的另一个现实基础在于“人们往往先发现规律,后发现原因”。从方法论层次看,以发现预测模型为目的的研究往往提倡的是假设演绎(Hypothetico-Deductive)研究范式,先提出研究假设,然后采用试验设计和演绎分析方法论证研究假设成立与否。然而,一个好的研究假设的提出需要研究者,尤其是数据科学家的特有素质——创造力、批判性思考和好奇心。
 
  与解释模型不同的是,预测模型更加重视的是模型的简单性,而不是复杂性,主要原因有两个,一是预测模型对计算时间的要求较高,甚至需要进行实时分析,然而简单模型的计算效率往往高于复杂模型;二是经验证明,正如奥卡姆剃刀定律(Occam's razor)所言,在其他条件相同的情况下,就预测而言,简单模型比复杂模型更可靠。
 
  预测模型往往建立在相关关系,而不是因果关系。通常,相关关系可以帮助我们预测未来,而因果关系有助于进一步理解和控制未来。从表面上看,预测模型依赖的是相关关系的分析,但在本质上属于一种数据驱动型的“数据范式”,与基于知识范式的解释模型有着本质性的区别。
 
  2. 模型集成及元分析的兴起
 
  传统数据分析的通用做法是用一个数据模型即可解决一项数据处理任务。在这种以单一模型为基础的数据分析中,为了提升数据处理的信度和效度,需要对模型进行优化和调整,导致数据模型复杂度的增长。也就是说,传统数据分析中的数据模型有两个基本特征:单一性和复杂性。
 
  但是,在大数据背景下,人们很难找到一个能够处理动态且异构数据的单一模型,因此,开始寻求多个模型的集成应用。与传统数据分析不同的是,大数据分析中所涉及的模型往往是极其简单,即大数据分析中的数据模型也有两个基本特征:多样性和简单性。
 
  可见,模型集成成为数据科学研究的一个新问题。通常,大数据分析采用多个较为简单的数据模型,将数据分析任务分解成分散在多个层次,多个活动的小任务,并通过简单模型及其集成方法达到最终数据处理目的。例如,在深度学习之中,由多处理层组成的计算模型可通过多层抽象来学习数据表征。
 
  模型集成的背后是元分析的兴起。传统统计学重视的基于零次或一次数据的基本分析,包括描述性统计、参数估计和假设检验。在大数据环境下,二次数据和三次数据的分析显得更为重要,数据分析工作往往在众多小模型的分析结果的基础上进行二次分析,即元分析。
 
  3. 数据在先,模式在后或无模式的出现
 
  传统数据管理,尤其是关系型数据库中采用的是“模式在先、数据在后(Schema First,Data Later)”的建设模式,即先定义模式,然后严格按照模式要求存储和管理数据;当需要调整模式时,不仅需要重定义数据结构,而且还需要修改上层应用程序。然而,在大数据环境下,无法沿用“模式在先、数据在后(Schema First,Data Later)”的建设模式,主要原因有两个:一是数据模式可能为不断变化或根本不存在;二是按照预定模式进行数据的存储和处理时容易导致信息丢失。
 
  因此,“数据在先,模式在后或无模式(Data First, Schema Later or Never)”成为数据产品设计的主要趋势。以NoSQL为例,采用非常简单的键值数据模型,通过模式在后(Schema Later)或无模式(Schemaless)的方式确保数据管理系统的敏捷性。当然,模式在后或无模式也会带来新问题,如限制数据管理系统的处理能力及加大应用系统的开发难度。
 
  在“数据在先,模式在后或无模式”的兴起背后是信息系统建设模式的历史性变革——从先行支付(Pay-before-you-go)转向现收现付(Pay-as-you-go)的建设模式。信息系统建设中的先行支付模式的特点是根据特定时间点的需求定义信息系统,信息系统一旦开发完毕,在一定时间内相对稳定。先行支付模式的缺点在于无法适应底层数据的复杂性和上层应用的动态变化。
 
  4. 数据一致性及现实主义的回归
 
  在传统数据管理中,对数据一致性的要求是接近于完美主义——强一致性,即任何时候从任何地方读出的任何数据均为正确数据。为了保证数据的一致性,在关系数据库中引入了事务、两端封锁协议和两端提交协议等方法或机制。强一致性的优点在于不仅可以保证数据质量,而且可以降低后续计算的成本。但是,强一致性不符合大数据时代的数据管理要求——高扩展性、高性能、高容错性、高伸缩性和高经济性。
 
  因此,NoSQL等新兴数据管理技术从根本上改变了人们对数据一致性的传统认识,主要表现在提出CAP理论和BASE原则等新兴数据管理理念,引入弱一致性、最终一致性等概念,并提供了不同的解决方案,如更新一致性、读写一致性和会话一致性等。可见,在数据科学研究中,数据的一致性出现了多样化趋势,即根据不同应用场景,有针对性地选择具体的一致性及其实现方法。
 
  在数据一致性的多样化认识的转变反映了们对数据数据管理目标的根本转折——从完美主义回归至现实主义。以CAP理论为例,人们对分布式系统的设计目的发生了改变,不再追求强一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)三个指标的同时最优,反而意识到了三者中的任何两个特征的保证(或争取)可能导致另一个特征的损失(或放弃)。例如,Cassadra和Dynamo 为了争取可用性和分区容错性而放弃了一致性。
 
  5. 多副本技术及靠近数据原则的应用
 
  传统关系数据库更加看重的是数据冗余的负面影响——冗余数据导致的数据一致性保障成本较高。与此不同的是,数据科学中更加重视的是冗余数据的积极作用,即冗余数据在负载均衡、灾难恢复和完整性检验中的积极作用。同时,还通过引入多副本技术和物化视图的方法丰富冗余数据的存在形式,缩短用户请求的响应时间,确保了良好用户体验。以Google搜索为例,采用缓存和照相(images)技术,重复利用搜索结果。
 
  同时,在计算和应用系统的部署上,改变传统的“数据靠近计算的原则”,反而开始采取了“计算靠近数据的原则”。例如,在Spark系统提供了操作getPreferredLocations(),支持RDD的本地化计算;在MapReduce中,尽量将Map任务调度至存放副本数据数据的机器上。可见,多副本技术和靠近数据原则均表明传统的“以计算为中心”的产品部署模式正向“以数据为中心”的产品部署模式的转变。
 
  6. 多样化技术及一体化应用并存
 
  传统关系数据库类产品虽多,但标准化程度较高,如均采用关系模型和SQL语言。但是,新兴的NoSQL数据库代表的不是一种特定技术,而是包括基于不同数据模型和查询接口的多种数据管理技术,如Key-Value、Key-Document和Key-Column和图存储模型等。可见,在技术实现层次上,新兴技术表现出了多样化发展及高度专业化的趋势,即一项新技术专注于一个问题、一项功能或一种应用场景。例如,MapReduce、Tez、Storm、Druid等技术的定位相对单一,分别专注于分布式批处理、Map/Reduce过程的拆分与组合、实时处理和面向OLAP的列存储等较为单一功能的实现。当然,Spark、YARN等较为通用性技术的出现也为技术层次上的高度专业化趋势提供了一种补充的解决方案。
 
  同时,在传统数据计算/管理环境中,不同数据产品的界限是比较清楚的,所依赖的技术也是单一的,要么关系模型,要么层次或网状模型。但是,大数据时代的到来导致不同计算/管理技术的高度融合,出现一些支持多种数据计算/管理技术集成产品,甚至显现出了软硬件一体化或嵌入式应用趋势。例如,Oracle大数据解决方案(Big Data Appliance)集成了HDFS、Oracle NoSQL、Cloudera CDH、数据仓库、内存计算和分析型应用。
 
  可见,在数据科学研究中一体化应用和专业化趋势并存。在产品与服务的实现层次上,一体化趋势越来越显着,一种产品的实现往往涉及多种不同技术的集成应用;在技术本身的实现层面,专业化趋势成为主流,一项新技术专注于解决相对单一问题。
 
  7.  简单计算及实用主义占据主导地位
 
  “简单”是数据科学的基本原则之一,代表着采用相对简单的技术来应对复杂的基础数据及不断变化的应用场景。与此不同的是,传统数据管理中采用的技术实现往往较为复杂。例如,传统关系数据库技术采用Join运算实现了多表查询等复杂操作。但是,这些复杂操作反而成为了关系数据库在提升数据管理能力的一个重要瓶颈,如Join操作要求被处理数据不能分布在不同节点。为此,NoSQL放弃了Join等复杂处理操作,突出了简单计算较高的效率和效果。

(编辑:无锡站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读