加入收藏 | 设为首页 | 会员中心 | 我要投稿 无锡站长网 (https://www.0510zz.cn/)- 运维、开发、CDN、操作系统、语音技术!
当前位置: 首页 > 大数据 > 正文

迈向现代数据平台的两个方法

发布时间:2021-06-03 17:34:43 所属栏目:大数据 来源:互联网
导读:不同的数据平台解决方案 Databricks perspective on DWH vs Data Lake vs Lakehouse 数据平台是将数据带到整个公司中的数据的环境。数据仓库是第一个企业中央数据平台。但是,随着各种数据格式和源,它们并不足够灵活。引入数据湖可以容易地从任何源以任何格
不同的数据平台解决方案
> Databricks’ perspective on DWH vs Data Lake vs Lakehouse
数据平台是将数据带到整个公司中的数据的环境。数据仓库是第一个企业中央数据平台。但是,随着各种数据格式和源,它们并不足够灵活。引入数据湖可以容易地从任何源以任何格式存储原始数据。这是通过推迟模式创建和数据解释来实现的,直到实际使用数据。这些湖泊经常转向所谓的数据沼泽,在那里没有人能够有效地真正使用数据。添加了所有数据,但没有准备对数据进行使用。继任者是LakeHouse,数据湖与数据库工具相结合,以轻松创建数据的可用视图。替代方案是数据网,它不会集中数据,但是利用多个分散的数据环境,以更好地跨团队进行规模。我稍后会更彻底地覆盖数据网格。
但首先,让我们看看我们实际解决的问题。这些不同数据平台的驱动程序是什么?我将从乌托邦理想开始,我们正在追逐,继续在实践中出现的平台,并用你可以采取的两步包装。在数据平台方向上的两个步骤,使机器学习解决方案,授权数据科学家,并分享内部工作方式。
乌托邦理想
如果来自所有部门的所有数据,则不会很容易访问。从一个中心位置访问,使您的所有数据科学家们可以在需要时获得所需的数据。他们可以专注于先进的机器学习,而数据工程师可以确保数据已准备好使用。
让我们见面Jane,我们的专家数据科学家。她正在开发一个新的数据科学产品:收入预测。中央数据平台提供了客户,产品和销售的所有数据。Jane在平台中构建完整数据集并将其加载到她的Jupyter Lab环境中。在与模型的目标与业务的一系列对齐之后,她很快开发了模型的第一版。
因此,该平台提供了科学家需要开发她的模型的一切,包括数据,计算和工作环境。平台开发人员(云和数据工程师)确保它是可扩展,实时和性能的。它们还提供数据谱系,数据治理和元数据等附加服务。科学家们完全赋予了工程困难

(编辑:无锡站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读