图2 4类号码特征区别
从特征统计分析表和两两特征关联分析图可知,正常号码、诈骗电话、响一声、呼死你在某些特征上具有显著区别。具体如表2所示。
表2 4类号码主要特征
从表2可得以下结论。
(1)诈骗/骚扰电话、响一声、呼死你在主叫通话次数、主叫率、主叫通话频率都大大高于正常号码,而在回拨率上大大低于正常号码。
(2)响一声、呼死你相对于诈骗/骚扰电话主叫通话次数更多,主叫外地联系人个数较少,通话频率更高,联系人/通话次数比例极少。
(3)响一声相对于呼死你、诈骗/骚扰电话在主叫通话时长上有显著区别。
为进一步区分这4类号码,引入决策树做具体分析。
3.1.3 基于CART决策树的诈骗电话识别模型
将主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例等共8个特征作为CART决策树的输入变量,决策树深度为5,样本量为100万。目标类型中0代表正常号码、1代表诈骗/骚扰电话、2代表响一声、3代表呼死你。
通过决策树得到的决策规则后,对预测数据采用该规则进行预测,得出疑似诈骗/骚扰电话结果集1。
3.1.4 基于XGBoost三分类模型
由于诈骗号码和广告号码没有明确的界限,需对于CART决策树结果中诈骗、广告、普通用户(类型1和类型2的号码)进行进一步识别,即三分类模型。其中诈骗即网络标记为诈骗、骚扰或被用户举报的,广告即网络标记为中介或广告推销等。
三分类标签化处理情况如下:设label0-1代表互联网标签无标记的号码,label1-1代表互联网标签标记为“骚扰” 或 “诈骗”的号码,label2-1代表互联网标签标记为“外卖” 或 “中介”或 “广告” 或 “购物”的号码,label1-2代表第三方数据标记为关停或加黑的号码。
黑白名单划分逻辑如下:白名单(0)代表label0-1号码 + 联系人数小于20的非label1号码,黑名单(1)代表label1-1 号码+ label1-2号码,灰名单(2)代表label2-1号码。
本次XGBoost调整的参数如表3所示,其它参数采用模型默认取值,不做调整。
表3 三分类参数设置
获取结果集中的类型3和类型4,与三分类模型输出结果合并为结果集2。