-
自考~自我挖掘的过程
所属栏目:[大数据] 日期:2021-01-14 热度:96
? ? 又经历了一场自学考试,对我来说,每次自考都是一次折磨,都没有老师经常说的那种在快乐中学习,掌握学习方法,拿个学位证是捎带脚的事的感觉。。。为啥呢?因为每次都感觉自己付出了很多:导图跟着画,题跟着做,书跟着背,就是过不了,几乎都是差几[详细]
-
华为荣获“最佳电信行业大数据分析平台奖”
所属栏目:[大数据] 日期:2021-01-14 热度:162
26日,在“Telco Data Analytics Europe”电信大数据行业峰会上,华为大数据分析平台(FusionInsight-Universe Analytics)荣获“最佳电信行业大数据分析平台” 奖(Best Telco Big Data Analytics Platform)。 “Telco Data Analytics Europe”峰会由著名[详细]
-
缓存数据处理思路
所属栏目:[大数据] 日期:2021-01-14 热度:123
传统行业 系统启动时,对效率要求较高的计算,对比等情况, 可将数据库中部分经常使用数据在系统启动时,将数据查出来,放至缓存中,map或guava中。 这就是所谓的缓存加载,等使用时,去缓存取出,方便快捷。 另,数据特别大时,加载较耗费时间,可采用先[详细]
-
2017届中兴飞流校招大数据测试工程师面经
所属栏目:[大数据] 日期:2021-01-14 热度:144
中兴飞流同样是我没想到会收到面试通知的公司。 中兴飞流是合资公司,2016年2月才成立,今年招收应届生人数不到10个,就没有组织宣讲会。一开始听同学说她投了中兴飞流,我也就跟着投了,但没报多大希望,毕竟找工作到这个时候,也了解找工作有很多影响因[详细]
-
大数据分析入门前必读(科普文章)
所属栏目:[大数据] 日期:2021-01-14 热度:89
1.什么是大数据? 不弄明白这个根本性的问题,是无法深入理解今后数据分析技术和工具的意义。 大数据指的是规模超过现有数据库工具获[详细]
-
基于Retrofit2,okhttp3的数据缓存(cache)技术--深入挖掘
所属栏目:[大数据] 日期:2021-01-14 热度:164
之前写过的文章:基于Retrofit2,okhttp3的数据缓存(cache)技术是局限于:在有网的情况下设置缓存时间t(s),在有网或者无网时都在t(s)之后就会缓存数据清空;这是有很多局限性的;本文着力于进行研究以下四个(2*2)方面: 有网时:1.每次都请求实时[详细]
-
【独家】消费金融大数据分析方法与金融大数据分析师养成
所属栏目:[大数据] 日期:2021-01-14 热度:100
2016年10月25日晚,清华大数据“应用·创新”系列讲座——“消费金融大数据分析方法与金融大数据分析师养成”在清华大学FIT楼多功能厅成功举办,本期讲座邀请到瑞天欣实数据科技公司创立人之一杨子君博士。杨子君博士持有美国南加大(USC)电子与计算机工[详细]
-
文本挖掘--python
所属栏目:[大数据] 日期:2021-01-13 热度:98
# -*- coding: utf-8 -*-""" Created on Mon Oct 03 11:07:58 2016 @author: liqi """keep = {'a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z',' ','-',"'"}def normalize(s): return ''.join([详细]
-
POJ2389 FFT 大数乘法
所属栏目:[大数据] 日期:2021-01-13 热度:137
Sample Input 222222222211112222222222 Sample Output 12345679011110987654321 import static java.lang.Math.PI;import static java.lang.Math.cos;import static java.lang.Math.sin;import java.io.BufferedReader;import java.io.InputStream;import[详细]
-
大数运算之阶乘
所属栏目:[大数据] 日期:2021-01-13 热度:162
Int不能存储较大数 int 代表有符号整数,也就是说,用 int 声明的变量可以是正数,可以是负数,也可以是零,但是只能是整数。标准规定 int 的最小取值范围是 -32767 到 32767。 int 的取值范围因机器而异,但是一定要大于或者等于 -32767 到 32767。一般来[详细]
-
[转]TF-IDF与余弦相似性的应用
所属栏目:[大数据] 日期:2021-01-13 热度:50
TF-IDF与余弦相似性的应用(一):自动提取关键词 作者:?阮一峰 日期:?2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干[详细]
-
周末荐读 | IBM SPSS数据分析与挖掘实战案例精粹
所属栏目:[大数据] 日期:2021-01-13 热度:53
一周一读 作者简介 张文彤 博士,数据挖掘、市场研究、统计软件教学与应用领域专家,现任全球第八大市场研究集团INTAGE中国公司全国技术总监。曾在复旦大学任教数载,期间协助SPSS在中国建立并完善了其培训体系,是国内知名的SPSS培训师之一。在数据挖掘、[详细]
-
【邀请函】数造未来--2016永洪科技大数据分析沙龙武汉站
所属栏目:[大数据] 日期:2021-01-12 热度:148
报道大数据企业:大数据产品、大数据方案、 ? 大数据人物 分享大数据干货:大数据书籍、大数据报告、 大数据视频 大数据人作为此次沙龙活动协办方之一,特邀各位大数据人参加活动。欢迎更多优质原创文章投稿给大数据人:289585305@qq.com 沙龙背景 大数据[详细]
-
大数定律理解
所属栏目:[大数据] 日期:2021-01-12 热度:55
概率论中的大数定律都发端于伯努利的工作。下面我们来回顾下这个问题: 假设袋中有 a 个白球, b 个黑球, p=aa+b 。有放回的从袋中抽球 N 次,记录抽到白球的次数为 X ,我们用 XN 去估计 p 。伯努利视图证明的就是:用 XN 去估计 p 的确定性——他称为道[详细]
-
13招神技,让你在数据科学和数据分析工作中脱颖而出
所属栏目:[大数据] 日期:2021-01-12 热度:79
副标题#e# 本文首发于 ?36大数据 ?(微信ID:dashuju36),大数据 经授权转载。如需转载,请与首发公众号联系授权事宜。 原文标题:13 Tips to make you awesome in Data Science / Analytics Jobs 作者:Tavish Srivastava 译者:36大数据翻译组-望天翻译[详细]
-
BigData学习3_大数据技术Hadoop面试题_选择和判断
所属栏目:[大数据] 日期:2021-01-12 热度:86
单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)Seconda[详细]
-
使用超大规模数据分析技术支持大数据预测
所属栏目:[大数据] 日期:2021-01-12 热度:164
今天我给大家带来的演讲内容是关于“使用超大规模数据分析技术支持大数据预测”这方面的。首先介绍一下我自己,我叫韩卿,很多人叫我Luke。我是Kyligence公司的联合创始人兼CEO,Apache Kylin开源项目的创始人,同时也是这个项目的项目管理委员会主席,以[详细]
-
利用文本挖掘技术来找出网络中的“小鲜词”
所属栏目:[大数据] 日期:2021-01-12 热度:101
副标题#e# 开始之前,先看一下从人人网中发现的90后用户爱用的词 是不是很好玩,哈哈。写这篇文章就是让你简单的自动的从文本中找出新的词,这样就知道现在的年轻人喜欢什么了(对于博主这种上了年纪的人来说,真的是很有用,呜呜) 项目结构 当然,text.da[详细]
-
97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)
所属栏目:[大数据] 日期:2021-01-08 热度:66
摘要 深度学习当前在NLP领域发展也相当快,翻译,问答,摘要等基本都被深度学习占领了。 本文给出基于深度学习的中文分词实现,借助大规模语料,不需要构造额外手工特征,在2014年人民日报语料上取得97.5%的准确率。模型基本是参考论文:http://www.aclweb[详细]
-
大数据分析与处理
所属栏目:[大数据] 日期:2020-12-24 热度:141
? ? 一、大数据分析与处理 1.文件批处理 ??????以MapReduce、Hive为典型代表,批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎,使得海量数据分析成为可能。没有批处理引擎的诞生,也就没有今天风风火火的大数据。 ??????数据[详细]
-
挖掘隐式启动Activity可能存在的坑
所属栏目:[大数据] 日期:2020-12-24 热度:50
今日科技快讯 很早之前,谷歌母公司Alphabet的董事长施密特就曾经表示,在中国市场,谷歌需要寻找到一个商业伙伴来开展自身的一些业务。而近日有消息传出,谷歌和网易正在进行合作磋商,很可能是成立合资公司,在国内推出针对中国市场的Google Play应用商[详细]
-
pyhive 连接 Hive 时错误
所属栏目:[大数据] 日期:2020-12-24 热度:135
一、User: xx is not allowed to impersonate xxx' 解决办法:修改 core-site.xml 文件,加入下面的内容后重启 hadoop。 property namehadoop.proxyuser.xx.hosts/name value*/value/propertyproperty namehadoop.proxyuser.xx.groups/name value*/value/p[详细]
-
分布式基础通信协议:paxos、totem 和 gossip(转载)
所属栏目:[大数据] 日期:2020-12-24 热度:125
背景: 在分布式中,最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题,涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。 简单即有效——totem协议: totem协议[详细]
-
Hive 导入 parquet 格式数据
所属栏目:[大数据] 日期:2020-12-24 热度:196
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式 构造建表语句 倒入数据 一、查看 parquet 内容和结构 下载地址 社区工具 GitHub 地址 命令 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parq[详细]
-
Presto 常用配置及操作
所属栏目:[大数据] 日期:2020-12-24 热度:182
一、介绍 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 推荐阅读 Presto实现原理和美团的使用实践 二、安装 2.[详细]
