基于大数据的生存分析模型与预测

大数据

生存分析在医学、生物学、金融学等领域是都是应用相当广泛的统计学分支。最初是应用于医学研究中, 例如病人确诊疾病之后多长时间会死亡,疾病治愈之后多久会复发等等。然而 生存分析中的生存并不仅仅指生物学上的生存,还可以引申为其他各类在一定时间间隔内观察对象是否发生某事件的实验。如今,生存分析已经被广泛的应用到金融、工程、网络等各个领域,例如用来分析机器零件的损坏情况,预测信息在社交网络的传播程度,分析某项服务的用户流失度等等。

IBM SPSS 计划在后续版本中提供对生存分析中较为实用的参数回归模型(Parametric Regression Modeling,简称 PRM)的支持。

2.数据删失

数据删失是指在对研究对象的观察过程中,该对象的生存时间没有被完整的观测到,因而造成生存数据不完整的现象。在实际的观察实验中,通常很难准确的观察到对象状态发生变化的精确时间点。比如患者在治愈之前自行终止治疗,或者在整个研究的观察期间都没有被治愈。由于观察手段或者被观察对象存在种种限制,因此难免会出现观察数据不完整的情况 。

删失数据,通常分为左删失,右删失和区间删失三种情况:

左删失(Left Censored):是指失效事件的发生时间只能确定是在某一时间点之前,即失效事件的起始时间没有观测到。右删失(Right Censored):是指失效事件的发生时间只能确定是在某一时间点之后,即失效事件的结束时间没有观测到。区间删失(Interval Censored):是指失效事件的发生时间可以确定在某一时间区间内。

非删失数据(Failure Data),就是准确的观察到了失效事件发生的事件点的生存数据。也就是说失效事件的起始时间和结束时间相等的数据。

在生存数据中,通常用 F 来表示非删失数据,L 表示左删失,R 表示右删失,I 表示区间删失。由此我们可以看到在图 1 中失效事件的时间与删失状态之间的关系。

图 2 删失数据示例

大数据

在图 2 中,我们可以更加直观的看到不同删失状态的数据之间的差别。其中,点表示失效事件发生的真实时间,直线表示对象被观察的时间段,虚线表示对象没有被观察到的时间段。可以从图 2 中看出,对象 1 的失效事件是发生在被观察的事件内的,因此属于非删失数据。对象 2 的失效事件发生在对象没有被观察的事件段中,因此只能确定失效事件发生在某个时间之后,属于右删失数据。对象 3 的失效事件能被确定在某个时间点之前,因此属于左删失数据。对象 4 的失效事件可以确定发生在一个时间区间内,因此数据区间删失数据。

在实际中,有时也会只用一个数据列来表示失效事件发生的事件。比如按照某固定频率进行的观察实验,这样的实验观察到的生存数据中,就只会有非删失数据和左删失数据,因此只需要用一个数据列来保存时间信息。

3.相关特征函数

在生存分析中,最为重要的就是对生存函数的估计。生存函数(Survival Function),是指被观察对象生存时间长于时间 t 的概率,即观察对象经历 t 时间之后仍然存活的可能性。因此,生存函数又称作(Cumulative Survival Rate)。

除了生存函数之外,风险函数也是生存分析研究的一个重要目标。风险函数(Hazard Function),表示被观察对象在观察时刻 t 的死亡概率。这个概率越高,改观察对象发生事件的可能就越大。

输入数据要求符合前面所介绍的生存数据的基本要求。Data Preparation:是在对于删失数据的时间和状态进行检查,对于状态和时间数据存在冲突的数据进行处理。对冲突数据通常有三种处理方法,以状态为标准修改数据,以数据为标准修改状态以及删除存在冲突的数据。AFT Modeling:可以指定生存时间的分布,也可以用多个分布来建立多个模型。Distribution Selection & Predictor Selection:从不同分布的模型中选取最有模型,并从所有参数中选择出来对观察对象生存有显著影响的参数。Output:建模的结果被存储在 PMML 和 StatXML 中。其中,PMML 中存储了利用模型来对数据做预测的信息,StatXML 中存储了模型的信息和可视化展示。

可以看到在上图中,”tenure”是表示用户已经使用服务的时间,可以理解为生存分析中的时间(Time)。由于使用时间肯定是从 0 开始,因此可以只用一列数据来表示。”churn”用来表示该用户是否已经流失,可以理解为生存分析中的状态(Status)。其他的参数都是表示用户的特征属性(Predictors)。

2.建立模型

在建立模型时,我们选择 Weibull 作为分布假设。根据建立模型的结果,我们可以得知在数据中,”Custcat”和”Marital”两项数据对于用户流失时间有显著的影响。因此根据模型结果,分别正对这两项数据绘制生存曲线图。

图 5 “Custcat”生存曲线图

大数据

图 6 “Marital”生存曲线图

大数据

从图中我们可以看出,在 Custcat 中属于”Basic Service”分类的用户,以及在”Marital”中属于”Unmarried”分类的用户,有更大的概率流失。

3.模型预测

图 7 模型预测结果

大数据

在模型预测的结果中我们可以看到,在原始数据之后多添加了一列”Predicted Survival”。该数据表示根据之前建立模型,该用户在当前时间流失的概率。根据这个预测结果,运营商便可以更有针对性的采取营销措施来保留客户,产生商业价值。

结束语

生存分析是一种非常有效的数据分析手段。对于事件何时再目标上发生这类问题,AFT 模型可以对影响事件发生的因素进行评估,并进行预测,结合商业场景可以帮助用户做出更加合理的商业决策。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2017-12-01
基于大数据的生存分析模型与预测
生存分析在医学、生物学、金融学等领域是都是应用相当广泛的统计学分支。最初是应用于医学研究中, 例如病人确诊疾病之后多长时间会死亡,疾病治愈之后多久会复发等等。然

长按扫码 阅读全文