让数据如音符起舞:论律商风险动静合一评分
“律商风险不搬运数据,而是演奏数据乐章……”
律商联讯风险信息(LexisNexis Risk Solutions,以下简称“律商风险”)作为全球领先,深耕中国,为保险行业提供数据和技术解决方案的公司,致力于将各类数据有机融合,为客户提供增量价值。律商风险形象地将各类数据视为“音符”,通过专业分析建模与产品设计能力,最终把“音符”谱成了优美的旋律。
以律商风险“动静合一”模型为例,首先将基于静态物理参数所建立的“车型风险等级元素周期表”作为音符(Notes),紧接着融合动态从用数据形成波音(Mordent),进一步在静态数据锚定风险等级的基础上差异化风险,完成风险精准定位,图1形象刻画了这一过程。
图1:动静合一评分模型原理示例
备注:车型A和车型B的静态评分,分别为450分和400分;考虑每一车辆(VIN)动态从用数据的差异,动静合一分将围绕静态车型分上下波动。以车型A为例,某车辆A1因里程、行程等动态信息相对平均风险倾向低风险方向,A1动静评分从450分移动到350分;而车辆A2反之,从450分移动到660分。图中仅列示部分静态、动态字段;评分越高,风险越高。
动态信息的融入,让原本风险区分能力优异的车型静态评分(车型风险等级元素周期表中的具体风险值)得以加强,使得模型在高低风险两极获得更好的风险识别能力,参见图2。律商风险高级数据科学家单翔表示,“车辆动态从用数据对赔付率的影响,本质是通过影响出险率来间接影响赔付率。应客观理解与分析动态从用数据的三大特征——相变性、活跃性和多维性,在此基础上才能设计出合理的模型结构,充分挖掘数据价值,以确保风险细分结果具有良好信度(稳定性)与效度(区分度)”。三大特征具体如下:
图2:在静态物理参数评分基础上,融入动态信息能够有效拉升两极高低风险区分度
一是相变性。赔付率是由出险率、案均和车均保费三要素共同决定,而动态从用数据主要与出险率相关。在实践中,可观测到动态信息与赔付率之间的关系图呈现相变性的特点。以年化行驶里程为例(如图3所示),当里程低于0.1分位点或高于0.9分位点时,赔付率会呈现明显变化,而在中间区域的变化则相对平坦。这些分位点,被称为赔付率相变点。这种现象可以类比于水在标准大气压的状态变化:只有在温度低于0摄氏度时,水才会结冰;而在温度高于100摄氏度时,水才会沸腾。当温度介于两个相变点之间时,很难从视觉上观测到水的明显变化。动态数据的相变性现象同样表明,动态数据虽然可以提升对两级赔付率的区分度,但在中间区域的区分效果平坦,甚至容易波动。因此,脱离车辆物理属性静态信息的动态评分,往往在评分中间区域对赔付率风险区分乏力。
图3:年化行驶里程分位点与赔付率呈现相变关系(新能源车为例),在高、低里程区域赔付率变化明显,尤其是高里程区域,而约80%中间区域赔付率变化则相对平缓。本图为基于大样本量统计结果。
二是活跃性。作为动态信息的第二大特征,具体指所能采集到动态信息暴露的充分程度。以高速数据为例,自疫情结束管控以来,2023年全国范围内约有70%的车辆在过去一年中曾在高速公路上行驶。而在这些上高速的车辆中,又约有70%的车辆在高速公路上行驶相对充分,活跃度高。因此,可以得出结论,大约有一半的车辆在高速公路上行驶活跃,其动态信息暴露相对充分;而另一半车辆的动态信息暴露则不够充分,这导致动态信息对出险率的区分能力不足。特别是对于那些从未在高速公路上行驶的车辆或新车来说,将没有高速动态信息。这些动态信息活跃度偏低的车辆能否得到车辆物理属性静态信息的补充,在风险细分上就显得尤为重要。
图4:以高速数据为例,约有50%的车辆动态从用信息暴露不充分
三是多维性。动态从用数据对风险的影响可以从两个层次来理解:一方面基于行驶里程、行程数等信息的行驶暴露类基准风险。简单地说,车辆使用越频繁,其风险暴露越高;另一方面则反映相对风险水平,例如通过百公里超车次数,百公里急加急减次数等数据来衡量。最终,基准风险与相对风险共同决定从用风险。就相对风险而言,又可以细分为:“超车/超速信息”,“急加/急减信息”,“疲劳驾驶信息”,“行驶路径分散度信息”,“行驶时间偏好信息”,以及“GIS信息”等维度。这些维度共同构成刻画相对风险的多维数据立方体。所以,即便能够获取到相同的动态信息源,能否科学、系统地衍生出多维数据立方体,形成相对正交的动态特征空间,是衡量挖掘动态数据价值潜能能力的关键。
图5:动态数据多维解析与特征结构
律商风险产品经理李莉将“动静合一评分“总结为“查得率行业最高,静态最全,动态精准”。
图6:律商风险动静合一评分流程图
律商风险不是数据的搬运工,而是数据价值的演奏者。正是基于对律商风险行业独有车辆物理参数静态库的深耕,以及对动态从用数据三大特征的深刻理解,构建出具有独特优势的动静合一风险评分。
作者:律商风险 单翔、李莉