加入收藏 | 设为首页 | 会员中心 | 我要投稿 无锡站长网 (https://www.0510zz.cn/)- 运维、开发、CDN、操作系统、语音技术!
当前位置: 首页 > 大数据 > 正文

数据科学研究的近况与趋势全解

发布时间:2021-09-15 14:49:41 所属栏目:大数据 来源:互联网
导读:大数据时代的到来催生了一门新的学科数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业
 
  除了上述问题之外,大数据的安全、大数据环境下的个人隐私保护、数据科学的项目管理及团队建设、公众数据科学(Citizen Data Science)等是目前在专业数据科学研究中讨论较多的问题。
 
  3. 专业中的数据科学研究的相对热门话题
 
  相对于专业数据科学,专业中的数据科学研究具有差异性和隐蔽性。差异性主要表现在各学科领域对数据科学的关注点和视角不同;隐蔽性是指专业中的数据科学研究往往间接地吸收和借鉴数据科学或类似于数据科学的思想,而并不明确采用或直接运用数据科学的规范术语。从目前的研究看,以下几个专业中的数据科学研究尤为活跃:
 
  数据新闻(Data Journalism):新闻学领域的新研究方向之一,主要研究的是如何将大数据和数据科学的理念引入新闻领域,实现数据驱动型新闻(Data-driven Journalism)。
 
  工业大数据:主要研究如何将大数据应用于工业制造领域,进而实现工业制造的创新。比较有代表性的是德国工业4.0(Industrie 4.0)、美国工业互联网(Industrial internet)和中国制造2025(Made in China)。
 
  消费大数据:与工业大数据不同的是,消费大数据更加关注的是产品生命周期的末端,即如何将已生产出的产品推销给更多的用户,主要包括精准营销、用户画像(User Profiling)以及广告推送。
 
  健康大数据:主要关注大数据在健康与医疗领域的广泛应用,包括生命日志(Life Logging)、医疗诊断、药物开发、卫生保健等具体领域的应用。
 
  生物大数据:将大数据的理念、理论、方法、技术和工具应用于生物学领域,从而生物学从知识范转向数据范式。
 
  社会大数据:综合运用大数据和数据科学的理论,探讨如何在大数据时代进行舆情分析、社会网络分析以及热点发现。
 
  机构大数据:如何将大数据和数据科学的思想引入企业、政府以及公益部门的日常业务、战略规划与可持续改进。
 
  智慧类应用:如何将大数据应用于智慧城市、智慧医疗、智慧养老、智慧交通、智慧教育等领域,发挥数据的驱动作用,进而实现更高的智慧。
 
  敏捷类应用:如何将大数据思维用于软件开发、项目管理以及组织管理之中,进而实现敏捷软件开发、敏捷项目管理和敏捷组织,提升其应变能力和可持续发展能力。
 
  4. 大数据生态系统研究中相对热门话题
 
  数据科学生态系统(Big Data Ecosystem)是指包括基础设施、支撑技术、工具与平台、项目管理以及其他外部影响因素在内的各种组成要素构成的完整系统。例如,大数据全景图(Big Data Landscape)较为全面地展示了大数据生态系统中的主要机构及产品。现有相关研究主要从组成要素及其相互关系两个方面进行。就目前而言,相关研究中的热门话题集中在:
 
  基础设施:主要关注云计算、物联网、移动计算、社交媒体在内的基础设施对数据科学的影响以及数据科学中如何充分利用上述基础设施。
 
  支撑技术:建立在基础设施上的关键技术,现有研究主要讨论机器学习、统计学、批处理、流计算、图计算、交互计算、NoSQL、NewSQL和关系云等支撑技术在数据科学的应用;
 
  工具与平台:支撑技术的具体实现,目前的主要研究热点集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具与平台在数据科学中的应用;
 
  项目管理:涉及数据科学项目的范围、时间、成本、质量、风险、人力资源、沟通、采购及系统管理等9个方面的管理;
 
  环境因素:大数据时代对法律、政策、制度、文化、道德、伦理产生的影响与新需求。其中,大数据权属立法研究主要讨论大数据权属立法的必要性、可行性以及对策建议。从大数据的重要性的认识看,大数据不再是一种资源,更是一种资产。大数据权属的立法已经成为大数据时代信息资源开发利用的必要条件。
 
  数据科学研究的争议与挑战
 
  在不同的学科领域,大数据时代的科学研究所面临问题、挑战和关注点不同。从计算机科学视角看,新的数据处理需求已经超出了现有的存储与计算能力;从统计学视角看,大数据挑战在于样本的规模接近总体时,如何直接在总体上进行统计分析;从机器学习角度看,训练样本集接近测试样本集时,如何用简单模型及模型集成方法实现较高的智能水平;从数据分析角度看,如何从海量数据中快速洞察有价值的数据,并通过试验设计和模拟仿真,实现数据到智慧的转变。但是,从数据科学视角看,其研究中的常见争议及背后的研究挑战可以归纳为10个方面:
 
  1. 思维模式——知识范式还是数据范式
 
  在传统科学研究中,由于数据的获得、存储和计算能力所限,人们往往采取的是知识范式(“数据→知识→问题”的范式),从数据,尤其是样本数据中提炼出知识之后,用知识去解决现实问题。大数据时代的到来及数据科学出现为人们提供了另一种研究思路,即数据范式(“数据→问题”范式),在尚未从数据中提炼出知识的前提下,用数据直接解决问题。数据范式强调的是在尚未将数据转换为知识的前提下,直接用数据去解决现实世界中的问题。以机器翻译为例,传统机器翻译方法是基于自然语言理解,准确说是基于语言学和统计学的知识进行,属于知识范式的范畴。但是,这种传统机器翻译效果一直并不理想,且尚无突破性进展。然而,近几年兴起的机器翻译方法改变了传统机器翻译的思维模式,采取的是“数据范式”——直接从历史跨语言语料库中快速洞见所需结果。上世纪五十年以来的IBM 机器翻译的缓慢发展以及2000以后的Google机器翻译的迅速兴起也反映了这种思维模式的变革。
 
  与传统认识中的“知识就是力量”类似,在大数据时代,数据也成为一种重要力量。如何组织、挖掘和利用数据成为现代组织的核心竞争力。目前,思维模式变革的主要挑战在于如何完成以数据为中心的设计、数据驱动型决策和数据密集型应用。
 
  2. 数据的认识——主动属性还是被动属性
 
  在传统科学研究中,数据一直被当作是被动的东西,人们主要从被动属性方面去对待数据。以关系数据库为例,人们先定义关系模式,然后将数据按照关系模式的要求进行强制转换后放入数据库中,完成数据挖掘和分析任务。
 
  在大数据思维模式的背后,一个根本性的变革在于人们开始意识到数据的主动属性——不再简单认为数据是一种死的、被动的东西,而更加重视数据的积极作者用,提出了数据在先、模式在后或无模式、让数据说话、数据驱动型应用、数据业务化、数据洞察和以数据为中心的思维模式等新术语。
 
  因此,如何正确认识数据及如何充分发挥数据的主动属性成为数据科学的重要研究任务。目前,相关研究的主要挑战在于如何实现数据洞察、以数据为中心的设计、敏捷软件开发、数据驱动型决策以及智慧类应用研发。
 
  3. 智能的认识——更好的算法还是更多的数据
 
  在传统学术研究中,智能主要来自于算法,尤其是复杂的算法。算法的复杂度随着智能水平得到提升。例如,KNN算法是机器学习中常用的分类算法,其算法思想非常简单。人们根据不同应用场景提出多种改进或演化方案,虽然智能水平有所提高,但随之而来的问题是算法复杂度的提升。但是,数据范式表明,数据也可以直接用于解决问题,引发了一场关于“更多数据还是更好模型(More data or Better Model debate)”的讨论,经过这场大讨论,人们得出了相对一致的结论——“更多数据+简单算法=最好的模型(more data+ simple Algorithem= the best model)”。
 
  因此,如何设计出简单高效的算法以及算法的集成应用成为数据科学的重要挑战。目前,关于智能的实现方式的挑战在于算法设计、算法集成、维度灾难和深度学习。
 
  4. 研发瓶颈——数据密集型还是计算密集型
 
  传统的软件开发与算法设计的重点是解决计算密集型的问题,计算是研究难点和瓶颈。但是,随着大规模分布式计算,尤其是云计算的普及,计算不再是人们需要解决的首要瓶颈。因此,软件开发与算法设计的主要矛盾从计算转向数据,出现了数据密集型应用。在数据密集型应用中,数据是主要关注点与瓶颈。数据密集型问题的研究将进一步推动以数据为中心的研究范式。
 
  目前,数据密集型应用的主要挑战在于副本数据技术、物化视图、计算的本地化、数据模型的多样化和数据一致性保障。
 
  5. 数据准备——数据预处理还是数据加工
 
  在传统数据研究中,数据准备主要强调的是将复杂数据转换为简单数据,对脏数据进行清洗处理后得到干净数据,从而防止“垃圾进垃圾出”现象的出现,主要涉及重复数据的过滤、错误数据的识别以及缺失数据的处理。可见,数据预处理主要关注的是数据的质量维度的问题。但是,由于从小数据到大数据之间存在质量涌现现象——个别小数据的质量问题(如缺失数据、错误数据或重复数据)不影响整个大数据的可用性,大数据处理中关注的并非为传统意义上的数据预处理,而其关注点转向另一个重要课题——数据加工。

(编辑:无锡站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读