玩转大数据，你应该知道的75个专业术语

发布时间：2018-04-10 10:23:23 所属栏目：大数据来源：站长网

导读：副标题#e# 如果你刚接触大数据，你可能会觉得这个领域很难以理解，无从下手。不过，你可以从下面这份包含了 25 个大数据术语的清单入手，那么我们开始吧。算法(Algorithm) ：算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么，「算法」又

Apache Kafka ：命名于捷克作家卡夫卡，用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流，据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理，卡夫卡目前非常受欢迎。

Apache Mahout ：Mahout 提供了一个用于机器学习和数据挖掘的预制算法库，也可用作创建更多算法的环境。换句话说，机器学习极客的最佳环境。

Apache Oozie ：在任何编程环境中，你都需要一些工作流系统通过预定义的方式和定义的依赖关系，安排和运行工作。 Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

Apache Drill, Apache Impala, Apache Spark SQL ：这三个开源项目都提供快速和交互式的 SQL，如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS)，这些功能将非常有用。抱歉，这里说的有点奇怪。

Apache Hive ：知道 SQL 吗如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

Apache Pig ：Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说，相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的

Apache Sqoop ：一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。

Apache Storm ：一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

人工智能(AI)：为什么 AI 出现在这里你可能会问，这不是一个单独的领域吗所有这些技术发展趋势紧密相连，所以我们最好静下心来继续学习，对吧 AI 以软硬件结合的方式开发智能机器和软件，这种硬件和软件的结合能够感知环境并在需要时采取必要的行动，不断从这些行动中学习。是不是听起来很像机器学习跟我一起「困惑」吧。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/8

首页

尾页