玩转大数据,你应该知道的75个专业术语
Apache Kafka :命名于捷克作家卡夫卡,用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,卡夫卡目前非常受欢迎。 Apache Mahout :Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。 Apache Oozie :在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。 Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。 Apache Drill, Apache Impala, Apache Spark SQL : 这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。 Apache Hive :知道 SQL 吗 如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。 Apache Pig :Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的 Apache Sqoop :一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。 Apache Storm :一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。 人工智能(AI): 为什么 AI 出现在这里 你可能会问,这不是一个单独的领域吗 所有这些技术发展趋势紧密相连,所以我们最好静下心来继续学习,对吧 AI 以软硬件结合的方式开发智能机器和软件,这种硬件和软件的结合能够感知环境并在需要时采取必要的行动,不断从这些行动中学习。是不是听起来很像机器学习 跟我一起「困惑」吧。 (编辑:无锡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |