【数据】张新宇:保险大数据的探索与实践
中国人寿保险股份有限公司研发中心 张新宇
随着保险公司信息化建设的不断深入以及移动互联网对保险销售、运营和服务模式的持续影响,保险公司已经积累而且将会积累更多的数据。而保险行业的立命之本就是大数法则,数据对保险公司具有至关重要的意义。
伴随大数据在各个行业的落地,保险行业也积极探索大数据的应用,主要包括两个视角:一是,各种新型的大数据技术基于各类传统数据在各个业务场景中的运用,即通过新技术解决既有问题;二是,基于各类新数据的创新型运用,新数据指企业的全新数据,以及新型数据与传统数据的结合。
本文从保险公司数据管理的特点出发,分析大数据在保险公司的应用场景,分别从大数据技术的应用和创新型的大数据应用两个方面阐述目前保险公司在大数据应用中的探索和实践。
一、保险公司数据管理的特点
与零售、电信和银行等行业不同,保险行业与客户之间的互动呈现出非常强的“低频”特点。如果没有理赔,财产险往往是一年一次,而寿险往往是1张保单持续几十年,每年只有续费的时候才有一次业务往来。这种低频交易使得保险公司的数据具有几个非常重要的特点。
1.交易数据量小,协议数据量大
由于保险产品的特征,一个保单往往持续一年或者更长时间,有些终身寿险的持续时间可能长达几十年。传统意义的交易数据,在保险公司非常少,而保单等协议数据的量非常大。交易数据与协议数据在数据管理的策略和机制上有较大的不同(如表1所示)。
2.数据保存的周期长
由于保险业务的特点,一张保单往往可能保存超过几年甚至几十年的时间,在这几十年的时间里,保单可以作保全、理赔、分红等各种各样的业务操作,因此数据管理的复杂度非常高,主要体现在以下几方面。
(1)同一个保单多次变更的版本保存机制问题。在保险行业的业务处理系统中,这些变更往往是通过一个保全操作来进行。对于保单在某一个历史时点的信息,往往需要通过保全记录来回溯,才能访问到该时点的状态信息。
(2)同一个保单随着IT系统的多次升级、变更时的迁移问题。在保单长达几十年的生命周期里,保存保单信息的IT系统常常会经历升级换代,在升级换代的过程中,由于系统设计的差异,使得数据迁移成为一个极其复杂的过程。尤其是各代业务处理系统在技术平台选型、物理模型设计和代码分类等方面的变化,有些数据迁移可能带来信息遗失,导致后续的处理和操作过程中出现各种问题。
(3)同一类保单,在不同业务发展阶段的特殊处理。这些处理如何被记录和保留,隐含在其中的处理逻辑和业务知识如何被传承等,都给后续对这些数据的利用带来挑战。
3.数据以内部数据为主
低频交易带来交易数据的缺乏,使得保险公司的数据与外部的数据之间难以进行连接。金融、电信、零售等行业的高频交易特点使得这些行业的企业易于与第三方合作,借助场景和机会,其内外部数据就具有了连接的可能。通过打通内外部数据,企业可以得到客户更加全面的全景视图,获取更多的业务机会。
二、大数据为保险行业带来的机遇
保险行业数据的特点使得保险公司在数据管理上,面临较高的成本,主要体现在以下三方面。
1.增量数据获取成本高
协议数据的增量数据获取往往需要采用比较复杂的技术手段,包括基于日志解析的方式和基于触发器的方式等。与交易数据可以直接基于交易时间进行增量数据获取不同,这些方式具有较高的软硬件投入成本。
2.历史数据保留成本高
基于上述的历史数据保留的难点,保险公司在历史 数据的保留上往往采用较为保守的策略。在IT系统升级的过程中,大量历史数据被直接保留在老系统中,使得老系统运行很多年无法下线。老业务在老系统中运行,新业务在新系统中运行的情况普遍存在。这使得一线的业务受理人员和后台的数据分析人员需要在多个系统中进行业务办理和数据统计,在大大增加系统维护成本的同时,也难以提供一致的客户体验。
3.数据应用成本高
历史数据的多版本带来的问题是,在后续数据应用中需要对多个历史版本的数据分别进行处理,不但增加了应用建设的复杂度,而且降低了应用运行的效率,从而推高了应用成本。
采用传统技术手段解决上述问题往往需要很高的软硬件投入和人员投入。在新的大数据技术体系下,开源软件和大数据量处理软件带来高性能,大大降低了数据应用所需的软硬件成本。此外,大数据的快速发展也使得外部数据应用成为可能,保险公司可以通过多种模式使用第三方机构的数据,从而丰富和完善自身的数据内容,为后续的精确营销、运营优化和客户服务等工作提供支持。
三、大数据技术的实践和应用场景
当前,保险行业大数据的应用场景主要基于在降低成本、提升服务质量和增加收入等角度展开。本文通过具体实践介绍大数据技术在保险行业的具体应用(如表2所示)。
1.基于NoSQL数据库的保单视图
保险公司的主要业务流程都是围绕保单进行的。在传统的关系数据库中,从保单号出发,通过一系列关联操作(Join),可以串联出绝大部分的业务数据。在关系数据库模式下,1:N的关系往往被拆解为多个表进行保存,其优点是:通过消除冗余带来很好的数据一致性;消除冗余的同时降低了存储的容量;缺点是:所有基于保单号的保单视图查询需要不断通过 Join操作进行多个表之间的关联,造成后续应用过程非常复杂。
基于NoSQL数据库的模型设计使得数据模型的设计可以采用逆规范化的模式进行存储,即可以以多结构化的模式进行存储。其优点是:各条记录之间的格式可以不同;对于1:N的关系,可以采用表中表的方式来存储;列式数据库增加了表的字段数,使得所有业务数据存储在一张表中成为可能。
基于NoSQL采用逆规范化的半结构化模型进行保单视图的整合,在下述多个业务场景中实现了应用的便利性。
(1)基于保单视图的客户服务
各个渠道对于保单数据的访问可以通过一个单表以保单号为查询条件进行高速数据查询,在这个过程中不需要进行表的关联操作,因此应用开发和运行效率都会大大提高。无论是在自助渠道还是传统的代理人渠道,都可以轻松地查询到一个保单的所有信息。
(2)基于保单视图的客户视图
通过客户与保单的关系信息,可以得到一个客户所有保单的全景信息,不仅仅包含原有关系数据库中的信息,还包括存储在各类内容管理系统中的影像和语音信息。与传统数据库不同,在NoSQL数据库中,这些非结构化数据的整合非常容易。
(3)基于保单视图的统计分析
在面向精准营销的应用中,在传统的关系数据库中,加工大量的以客户为中心的各类衍生信息变量,往往需要相当长的时间和成本高昂的软硬件平台。在NoSQL数据库中,上述操作执行效率非常高。
大都会人寿基于MongoDB建立了面向客户服务的“The Wall”系统,集成了来自70多个系统中的数据,囊括了来自各个业务线的保单明细信息。通过该系统,客服代表可以在接听客户来电时获取更多业务信息,极大地提高了客服代表的服务效率,提升了客户的满意度。
还有一些保险公司探索使用Hbase建立以保单为中心的基础数据模型,将所有与保单相关的数据采用多结构化的模型设计思路,直接在一张表中进行保存。这种方法在面向查询和统计分析中非常有效,避免了使用时的多表关联。
2.基于NoSQL数据库的历史数据查询
保险公司IT系统中存有大量历史数据,NoSQL数据库作为一个低成本解决方案,可以承担历史数据查询功能。历史数据查询系统的实现方式有两种。一是数据整合法:将不同版本的历史数据,通过数据迁移整合到一个统一的模型和数据标准下,并以此为基础开发历史数据查询应用。使用此方法需要了解历史数据每个版本的迁移规则,适用于有明确查询需求的场景,为应用驱动的历史数据查询平台。二是同源设计法:不同版本的历史数据,1:1迁移到NoSQL数据库中,数据不作任何转换和整合,原来构建在传统数据库上的应用也1:1迁移到新的平台上来。此方法无需了解每个版本之间的差异和转换规则,适用于降低历史应用管理和维护成本的场景,为数据驱动的历史数据查询平台。
3.基于语音数据识别的自动质检
电话渠道是保险销售的重要渠道之一。在电销管理中,一个主要的手段是通过质量检测发现销售人员通话过程中存在的问题。传统的质检方式需要质检人员抽查听取销售人员的电话录音,质检比例低,全面性不够。同时由于质检人员具有主观性,质检的准确性难以保障。
基于语音数据识别技术,可以采用自动化的方法来提升质检的全面性和准确性,具体的实施步骤为:①将电销的录音抽取传输给语音识别软件;②语音识别软件将语音转换为文本信息;③质检员定义质检的规则和模型;④将质检的规则和模型应用到转换后的文本信息上;⑤形成质检报告。
在保险公司的电销自动质检中,可以定义的规则包括违规词检测、服务忌语检测、标准欢迎语检测、标准结束语检测、健康告知检测、免责声明检测和十天犹豫期告知检测等。在实践中,中国平安已经开始应用这一技术进行海量录音的人工质检替代。
4.基于内外部数据结合的地址信息标准化
当前,保险公司所积累的数据大都为人工录入客户在各种单证上的手写信息。如地址信息是保险公司寄送各种通知单以及提供各类客户服务所需的基础数据,但保险公司记录的客户地址,大都为客户在原始投保单上填写的信息。由于我国目前还没有推广使用地址信息的统一标准,同一个地址,呈现出不同的填写方式。事实上,保险公司录入的数据质量主要取决于客户填写信息的完整性和准确性。而从行业既有的数据看,数据质量在完整性和准确性方面都差强人意。借助大数据技术,保险公司通过与外部的标准化地址库匹配,可以将既有的录入地址转换为标准化地址,进而与地图引擎结合进行地址标注,提升以下业务能力。一是客户服务:无论是保单分配,还是递送各种通知,同一地址或邻近地址的客户由同一服务人员进行服务。二是营销活动:对于同一地址(小区/楼宇)的客户,通过客户标签的方式归为同一个标签,在后续营销活动策划中,可以统一策划上门营销活动,提高营销活动的效率。
5.数据标签化与数据补充
对已有数据进行加工和分析,将客户特征通过标签化的方式进行提炼的做法,电商、零售和电信行业已经进行了大量实践。如前文所述,保险业务的低频特征使得保险公司对客户缺乏深入了解和洞察,而这对于保险公司设计产品和营销活动非常重要。目前,尽管保险公司已经开始尝试通过客户标签的方式将客户的特征提炼出来,但现有的客户标签无论从标签的数量还是数据的丰富度、准确性上都有较大的提升空间。这也促使保险公司与第三方公司合作,补充、完善既有客户的标签。
四、大数据实践中的新问题
一是数据连接问题。无论企业内部数据还是企业内部与外部数据之间都存在数据连接的问题。在企业内部既有的各个系统中,多个系统之间的数据依然存在无法连接的情况。如呼叫中心的呼入信息与保单信息无法连接,客户在网络、移动APP和微信等渠道的操作信息无法与业务信息连接。企业外部的客户数据与内部数据之间的连接成功率仅为20%左右。数据连接问题是制约保险行业大数据价值发挥的一个主要瓶颈,需要通过大量的实际工作逐一解决。
二是数据价值评估问题。在解决数据连接问题的过程中,如何评估数据带来的价值是一个非常困难的事情。目前还没有一个公认方法论和工具让连接的双方认可对方数据的价值,从而对连接工作进行计价,这成为阻碍大数据进一步推广使用的重要因素,正如《大数据时代》作者维克托教授所指出的,在大数据的价值链中,大数据本身、大数据技术和大数据思维三者究竟哪个价值更高,是一个非常难以评估的问题。
已对原文重新排版,阅读原文以下推文采用自研智能关联、组合专题技术…:相关文章 延伸阅读
- 乱弹:保险业的互联网创新路径
- 大数据时代下保险业机遇与挑战
- 中国保信:保险业大数据战略的推进器
- 强强联手,推进汽车与保险大数据跨界融合
- 互联网保险跨界合作
- 互联网将带来颠覆性冲击 保险销售部门会萎缩
- 盘点|大数据社会的十三大具体应用场景
- 嘲险|大佬们为啥都喜欢隐身保险公司
- 保险宣传及保险养老话题
- 【万字雄文】保险市场九大门派恩怨情仇(全)
- 凯文·凯利:不管你现在做什么行业,未来都是数据生意
- 医疗信息化里的一出谍战大戏!
- 老公车祸离世,欠款800万元,妻子整理遗物..........
- ☞【PPT】50页PPT揭秘腾讯大数据平台与推荐应用架构
- 扎克伯格:不冒风险才是最大的风险
- 2017年大数据的十大发展趋势
- 合众思壮郭信平:地信领域大资源支撑零成本创业
- 为什么保险行业需要大数据?
- 1450张罚单!2.4亿元罚金!2018年度保险业处罚数据出炉
- 某金融保险数据中心基于机器学习的智能运维经验分享 | 最佳实践
- 圆周率π小数点后600位的值
- 图表可视化:你想要的都在这
- 2018年保险业人身保险市场财务数据分析
- 孙正义:数字资产会成为人类最大的资产
- 打造新一代数字化汽车企业的探索——美国Karma汽车案例分析
- 先讲一个大数据的笑话
- 深度长文:保险行业投资机会
- 将数据存到DNA里!全世界的信息只有1公斤重