3.3 易感人群识别模块
该模型根据用户通话和消费行为,对易感人群进行画像和分类。将诈骗电话识别模块已有的诈骗号码数据,将该类诈骗号码联系过的用户进行聚合,得出所有被叫用户的通话类型,将受害人识别模块和受害程度判定模块获得的1/2/3级受害人,分别标记为1/2/3级易感人群,而没有遭受任何诈骗电话侵害的用户标记为潜在易感人群。具体输入变量和输出目标类型如表5所示。
表5 易感人群识别模块输入变量和输出目标类型
基于上述1/2/3类深度受害人和潜在受害人的社交信息、行为信息特征数据,及4类易感人群类别,作为样本数据集合,利用机器学习中的kNN算法,获得易感程度分级规则。当输入没有标签的新用户数据后,将新数据的每个特征值与样本集中数据对应的特征值进行比较,然后算法提取样本集中特征最相似的数据的分类标签,具体实现步骤如下。
步骤1:把两组已知的打好标签的用户数据放到Hadoop的HDFS上,分别作为训练数据和测试数据。数据的表示形式如下:A用户可以表示成(xA0, xA1, ……xA10),B用户可以表示成(xB0, xB1, ……xB10),其中xA0表示用户A联系人数,xA1表示外地联系人个数,以此类推。
步骤2:通过Map函数计算测试数据的节点到训练样本节点之间的距离,其中距离计算方法采用上述Mahalanobis距离公式。按照距离递增次序排序,排序的结果作为Map的输出结果作为Reduce函数的输入量。
步骤3:在Reduce函数中,选取与当前节点距离最小的k个点 ,并确定前k个点所在类别的出现频率,最终返回前k个点出现频率最高的类别作为当前点的预测分类。
步骤4:计算测试数据中kNN算法的错误率,通过调节k的大小来对分类器进行调优。
步骤5:对于新的用户数据,首先计算其特征值,然后按照步骤2和3,返回易感人群分级类别。
4 结束语
本文设计了一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护的方法。该方法结合可获知的可疑样本采用机器学习算法来识别诈骗电话,同时能够根据用户与陌生电话的通话行为,匹配异常通话行为模式,并根据疑似诈骗号码匹配出更多潜在受害人,及时介入并对用户进行提示告警。最后从用户角度,对通信信息诈骗易感程度进行分级。
为了能够更有效地使用论文中的方法来防止5G电话诈骗,下一步需要不断提升本方法识别精度和识别的覆盖能力,以及应对5G电话诈骗新衍生场景的能力。