使用人工智能来增加收债

2020-09-04 13:34:16

这是使用机器学习(MLBR)提高收集和恢复的案例研究的第二部分。

我们知道,数据收集是从各种来源收集和获取信息的过程。在本例中,我们从数据仓库和OLTP存储库中收集了与客户相关的各种类型的数据。我们收集了与客户人口统计、现有回收基础数据、代收代理、外部代理数据、律师数据、通话记录、支付历史等相关的数据。

在收集和研究数据之后,我们提出了三种类型的变量作为我们模型的输入。

工程变量:这些变量是在进行广泛的探索性分析或使用主成分分析(PCA)后准备的。

为输入数据集收集了40多个变量。下面列出了一些变量:

还款分数:(Feature Engineering)此变量根据历史数据计算客户的还款能力。

一旦收集了所有变量的数据,就不能直接将其用于建模。在此阶段,对数据进行处理,以便可以将其用于建模。准备数据集通常是预测分析中最困难、最耗时的任务。通常,70%到80%的项目时间将花费在这一阶段。此阶段的最终目标是将数据集成并丰富到分析数据集中。主要活动包括。

数据获取从所有数据源获取数据,并集成以创建一个数据集,即士气低落。

数据审计使用描述性分析技术对原始数据进行全面的初步查看,以便进行初始数据探索。例如平均值、中位数、标准差、最大值、最小值等。

缺失值通常用零替换缺失值。需要与企业就方法达成一致。

异常值检测和修复可识别具有异常值或极值的记录。通常标准偏差大于3或5的值。如果离群值的数量小于总数据的1%,则可以将这些记录放在一边。K均值或平均值是其他选项。

相关分析确定与目标变量有很强关系的顶层特征。影响流失的关键变量。

数据平衡这定义了培训数据集中所有客户已恢复与未恢复的百分比。这种偏见需要消除。可以使用几种技术,包括随机欠采样、随机过采样、合成少数过采样技术(SMOTE)等。

客户细分(如果需要)如果需要,可以根据产品和市场对客户群进行细分。

在清理和处理数据之后,机器学习项目的下一步是进行探索性数据分析(EDA)。它包括数字汇总、曲线图、聚集、分布、密度、审查所有水平的因素变量和应用一般统计方法。对数据的清楚理解为模型选择提供了基础,即选择正确的机器学习算法来解决问题。

对MLBR进行了广泛的探索性数据分析,不久将在单独的系列文章中提供。

特征工程是确定哪些预测变量对机器学习算法的预测能力贡献最大的过程。有两种常用的方法来进行此选择-正向选择过程在模型中没有变量的情况下开始。然后迭代添加变量并测试模型的预测准确性,直到添加更多变量不再产生积极效果。接下来,向后消除过程从模型中的所有变量开始。您可以从删除变量和测试模型的预测准确性开始。

特征工程是一个带有探索性数据分析的讨价还价过程,以提供关于数据的非常需要的直观。在这个阶段拥有一位领域专家也是非常重要的。风险收集团队一直非常支持通过项目工作提供领域知识。

在对历史数据的探索性分析中,我们了解到,确定账户处理广泛存在于信贷生命周期的多个阶段,每个阶段都有几个特点。因此,通过使用主成分分析(PCA)技术,我们提出了一个想法,即使用不同阶段的预测分数来查看。

特定于收集的评分旨在使用在收集阶段被证明有效的数据元素来预测在较短的时间范围内(未来一两个月)会发生什么。收款分数是一项工程功能,用于查看收款期间的客户行为。该算法分配一个基本分数,然后在得出最终收集分数之前查看几个参数。这些参数包括呼叫次数、联系方式、获得的支付承诺(PTP)、PTP保留率、PTP损失率、入站呼叫、发送的信件等。该算法还查看直到第一、第二和第三次保留的PTP数量。同样,第一、第二和第三天的天数也保持不变。下面给出的是不同细分客户的收集分数的密度分布。

这是一项工程功能,它通过查看客户的历史数据来计算客户的还款能力,然后再对其进行计费。为计算客户还款分数而开发的算法通过查看拖欠年龄桶在冲销前最后三年的向前和向后移动来实现这一点。它查找客户违约的次数、客户恢复正常的次数。在得到最终还款分数之前,该算法还根据早期拖欠和后期拖欠计算客户终身价值因子。下面给出的是不同细分客户的还款分数的密度分布。

在收集和回收过程中,如何最好地处理帐目往往由人来判断。我们获得了收集和回收团队的专业知识,并开发了专家意见记分卡,根据专家判断对客户进行评级。记分卡主要考虑了与客户人口统计、市场和产品相关的19个独立变量。然后,在计算最终分数之前,每个变量都由专家根据1-5的等级进行评分。比例尺是这样的:

每个变量都有它的权重,因此对最终得分的贡献。下图显示了分配给每个变量的权重。

下面给出的是不同细分客户的专家意见得分的密度分布。

特征重要性/属性重要性通常解释数据集中特征的预测能力。值得一提的是,

特征重要性是基于提供给模型的训练数据计算的,而不是基于对测试数据集的预测。

这些数字并不能表明模型的真实预测能力,尤其是过度拟合的模型。例如,在我们的示例中,MonthsLastPay。

因此,采用样本属性重要度和排列属性重要度技术来克服这一问题。