大数据在保险行业的实施
发布时间:2021-12-31 15:34:37 所属栏目:云计算 来源:互联网
导读:负责数据智能部数据产品的规划设计和系统架构。 在保险行业业务数据的基础上,研究如何将数据转化为服务,让数据为企业的业务服务,为企业的客户服务,同时为整个行业以及为社会服务。 大数据在保险行业的应用 曾在Sun Microsystems和Oracle公司任高级研发工
|
这些采集的业务和技术,和大数据的哪几个V有关呢?我觉得主要是对大量数据的快速处理,在采集的同时就做处理,避免积累大量的非结构化或少结构化的数据。 * 插码:我们在浏览网页,例如京东或者淘宝时,一些操作行为、习惯会被记录下来,这些记录的工具一般是网页中的一段代码,这些预先写好的代码被植入已有的系统后,就会具有相应的功能,这个被称为“插码系统”。 另一类的数据采集可以算作是 数据准备 ,从不同的来源,包括从业务数据库里,数据仓库里,或者直接从业务系统里获取数据,把这些数据集成起来提供给下游的数据消费者使用——对于数据工程师来说,更通俗的说法是“提数服务”。 这类采集简单的做法是直接写sql,复杂一些的是开发很多ETL的,采集、分析、存储作为一个整体过程。 准备好的数据,放在目标数据库里,或者保存为离线文件,下发给需要使用这些数据的人或系统。 数据分析中的数据准备和应用系统开发中的数据集成不是一个概念,常用的数据集成软件,例如golden gate,并不适用。因为这里的数据集成是数据工程师做,给下游数据工程师使用,而不是部署一个数据集成的系统。 *数据仓库:和普通数据一样的结构化数据,把业务线重新组织后重新放在另一个结构化数据库里面,规整好的新数据库即为数据仓库。 还有一类采集技术是 把非结构化的数据转化成结构化数据 。 例如文字识别,图像识别,语音和自然语言识别。这些技术相对来说比较独立,一般是在一个项目中如果需要的话作为一个单独的模块引入或者开发。 举个例子,投保单的电子化,大家觉得一张纸质的投保单是怎么录入系统的? 我们在银行里也有很多类似的经历,手动填写很多表格,怎么电子化的呢?手动写的字那么不清楚,怎么识别出来的呢?智能识别手写内容?——大家想多了,保存影印件,然后人工复核,甚至是人工录单,有专门的外包公司会来做这些工作。 从这里可能看出来,像保险公司这类的传统企业,很难对核心系统做大的改动,新技术往往都是在外围进行应用。 数据的存储技术 传统的持久化存储技术,有传统的数据库,数据仓库,nosql数据库,在数据分析中都要用到。这一系列的技术比较成熟,应用场景也很稳定。 还有一种之前不太常用,现在比较常用的是 缓存技术 。 传统的报表系统的实现方式是什么样的呢?最底层是基础数据,在基础数据的基础上加工为很多指标,将不同的指标拉到一个表里,生成报表。 当指标不止一层的时候,一些指标是另一些指标加工而来的,从最终的报表到基础数据之间隔着好几层指标,每次算报表的时候都层层往下去算指标,开销太大了,所以中间很多相对稳定的指标就放在缓存里,以提供给上游的指标使用。 数据的分析技术 分析技术是大头,也是现在公司里耗费人力最多的地方,业务需求最集中的地方。先说说传统的,现在已有的分析方式是什么样呢? 大家第一反应肯定是机器学习,但目前企业里,主要的还是写SQL,写一个不够就拼好几个SQL,不行就写ETL。 这种模式对BI需求来说,足够好了了已经,如果能有什么改进的话,引入流失计算,用规则引擎替换掉SQL等,到不了需要使用机器学习的程度。 传统的数据分析目的就一个,报表,清单报表,统计报表。 使用规则引擎来做分析,也就是说来定义报表,解决的是数据分析逻辑便于开发,便于理解,便于复用。 看起来比SQL更加友好,完全不懂技术的业务人员也可以操作。但是他解决的只是易用性的问题,功能和传统SQL比起来不会更好,甚至不如SQL。 另外一方面对现有分析技术的改进,是引入 流式处理的模式 ,处理的不是静态保存起来的结构化数据,而是处理的在一个数据流中的数据。 比如使用Storm,通过编写不同的处理程序来实时进行数据分析。例如前面说的爬虫系统,从互联网上抓取的文章,就是实时地通过Storm打的标签,然后再放到ES库里的。 最后,还是要涉及到机器学习。 虽然前面说现在的业务模式中并不依赖机器学习,但是在对新的领域进行分析的时候,传统的方式是无法胜任的,还是得求助于新的分析模型,这个时候需要使用机器学习技术。 举个例子,公司内在做人员画像分析的时候,人员的数据和岗位的数据使用什么样的方式可以结合起来?人员的数据会以什么样的方式影响到他所在岗位的绩效?这能不能写个sql,编一段规则,或者写个python程序算出来呢?不行,只能借助机器学习了。 公司里在做人员分析的时候,其实大量用到机器学习的方法。只是这些分析都是独立的,针对特定场景进行的一次性分析,没有能够集成到现有的应用或平台中去。 数据的展现技术 主要是数据展现相关的技术,数据可视化,多维度展现,数据展现和数据探索结合。 展示出来的数据是数据服务的最终交付物,无论前面怎么采集存储分析,最终起作用的是呈现出来的部分。所以会做ppt才是王道。 作为数据分析工程师,使用数据的部分往往意味着前端展示技术。传统的BI系统里的数据展示在大数据的时代过时了吗?有哪些不同呢?我个人感觉,就外观来说,没什么不同,各种大屏展示,现在流行的说法是驾驶舱。 但是在这样外观下,大数据的数据展示至少有两点不同: 一是传统数据很多普遍为T+5,好一点的可以实现T+1,但大数据都是展示实时数据; 二是数据展示和数据探索往往会结合在一起。 这两点要求,传统的BI系统就不容易实现了,需要利用到大数据平台作为支撑,才能提供实时的数据查询展示,展示的数据可以实时下钻,发现一个指标的关联指标。 保险大数据分析的应用场景 就目前保险行业而言,就算完全不使用大数据技术,对保险行业的日常运营来说,没有任何影响,但是如果不使用大数据技术,那么对未来的运营,一定会有很大的影响。我们在这一部分,聊一聊保险行业里大数据分析的应用场景。 数据的安全合规 首先第一个场景,也是最重要的,就是 数据的安全合规 。 这里说的监管指的是数据上的监管,不是经营上的监管。金融行业受到严格监管,而且这种监管的力度是越来越强的。 监管的手段随着技术的进步在不断推进,所以金融机构本身也就必须要跟得上才行,一旦落后,就意味着违规。 最常见的两类监管: 一个是保监会和行业协会对保单数据的监管, 二是央行的反洗钱数据监管。 监管的方式是要求保险公司上报数据,按照指定的规格上报数据。有的是每天上报,有的是不定期的现场检查。 监管机构对数据的要求是不会考虑各个公司自己数据的组织形式的,他们会定义自己想要的数据结构和数据内容,被监管的机构有义务将自己的数据整理成监管机构想要的样子。 一两年前这其实也不是太大的问题,开发一些ETL就足够满足需求了。但是,数据监管的要求更新很快,每年都会更新,对数据需求的范围和复杂程度两方面的增加,对于开发ETL来说,复杂度不是线性增长的,而是要增长得更快。 ETL要做的工作,元数据管理,数据质量管理,最好都挪到大数据技术栈上来,不要再依赖传统的数据库,不依赖开发SQL和ETL。 应对监管是被动的,从主动的方面来说,需要用大数据技术来促进业绩提升。最明显的例子就是客户分析。 保险行业最初是不太经营客户的概念,和银行业不太一样,银行业的所有业务和核心系统都是围绕客户、账户来的,而保险行业的核心系统都是围绕保单来的。但是事实上保险行业现在非常需要围绕客户来进行经营。 在没有大数据分析之前,经营客户主要靠代理人通过线下的方式去维护和调查,而现在可以对客户数据进行整理和分析,例如用户画像,客户360分析,等等。这些都是大数据流行用语。 话说回来,我想说的是客户分析是一个可以提升业绩的典型场景。目前的保险代理人和电话销售,背后都有大数据的支持。 开拓新业务 另一个应用场景,是 拓展新业态,规划新格局 —— 不是对现有的业务进行提升,而是大数据技术可以为企业拓展出新的业务。 很多企业都有这样的打算,就是把数据转化为数据服务,把这种服务提供出来。 那这是不是卖数据呢?大家不要紧张,不是卖数据。用户隐私数据是很敏感的,金融行业对这些数据的控制非常严格,也绝对不会去出售数据。 但是出售数据服务是可以的,而且也是大数据分析要干的事儿。 举个例子,但这不是保险公司,是银保监会的保单登记平台,这个平台的作用是让所有保险公司将自己的保单登记进来。 各个保险公司的保单数据在这个平台上就打通了。但是各家的数据肯定是不能给其他家看的了,但是保单登记平台有了所有的数据后,可以基于这些数据提供风险提示服务给各家保险公司。 比如有人在A保险公司投保的时候,A保险公司就可以查询一下这个人是不是在不同的保险公司重复投了保,如果是的话,那么承保的风险就比较高。 在准备这次分享的时候,我想要能找到一个保险公司对外提供数据服务的例子,但是直到 (编辑:无锡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
