DataPipeline在大数据平台的数据流实践
发布时间:2018-12-03 04:32:27 所属栏目:大数据 来源:dockone
导读:副标题#e# 进入大数据时代,实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。 一、企业级数据面临的主要问题和挑战 1.数据量不断攀升 随着互联网+的蓬勃发展和用户规模的急剧扩张,企业数据量也在飞
大数据时代企业数据集成主要面临各种复杂的架构,应对这些复杂的系统对ETL的要求也越来越高。我们能做的就是需要权衡利弊选取一个符合业务需求的框架; Kafka Connect 比较适合对数据量大,且有实时性需求的业务; 基于Kafka Connect 优良特性可以依据不同的数据仓库特性来提高数据时效性和同步效率; DataPipeline针对目前企业在大规模实时数据流的痛点,进行了相关的改造和优化,首先数据端到端一致性的保证是几乎所有企业在数据同步过程中碰到的,目前已经做到基于kafka connect 的框架中 rebalance 中的优化和改造。 相关阅读: 三大方向预测大数据技术发展未来趋势 贵阳警方利用大数据技术打掉3个传销团伙 (编辑:无锡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |