3.1.5 基于事件链的诈骗电话识别模型
对于活跃期短或新出现的诈骗电话难以识别。根据图3所示通信信息诈骗场景图,一般单独一次通话无法完成整个诈骗流程,而多是由诈骗团伙成员各有分工,通过多次通话获得受害人信任,从而完成诈骗。
图3 通信信息诈骗场景
从用户角度而言,大部分用户接到诈骗电话后可短时间内识别,不会有后续通话行为。而无法短时间内识别诈骗电话的用户,则会与诈骗号码及其他号码有交互行为,且通话时间较长。因此可从用户异常主叫行为角度入手,通话挖掘用户异常通话行为,定位疑似诈骗电话,再通过诈骗电话识别规则,对诈骗电话进行精准识别。用户异常行为主要有以下几种。
(1)多个用户短时间内接到了一组陌生电话。
(2)用户在接到某陌生电话后,短期内发生主叫行为,且对象为公共电话。
(3)多个用户在接到某陌生电话后,短期内发生主叫行为,且主叫对象为同一陌生电话。
其中公共电话指110、114和95550等客服电话。陌生号码指30天内未曾与该用户有过通话行为的号码,且排除上述公共电话。
当发生上述异常行为时,记录下陌生电话,并标记为疑似诈骗电话。通过查询疑似诈骗电话的信令、BOSS数据,匹配该疑似诈骗电话的通话行为和消费行为等,如表4所示。
表4 事件链模型输入特征
诈骗电话和广告推销等非诈骗电话,均具有主叫高频、外地联系人占比高和通话时长长尾型分布等特点。为进一步精确判定诈骗电话,引入离群点检测方法进行精准识别。
由于对于疑似诈骗电话样本,难以获得其是否为真正诈骗的标签,因此采用无监督学习方法中的离群点检测技术,找到疑似诈骗电话中的异常点,作为诈骗电话。将疑似诈骗电话样本集视为X,通过引入基于相对密度概念技术,将离群的得分较高前N个号码视为诈骗电话,诈骗电话识别规则的具体算法步骤如下。
通过事件链模型得出疑似诈骗/骚扰电话结果集3,与疑似诈骗/骚扰电话结果集2进行合并去重得到最后的结果集4。
3.2 受害程度判定规则模块
该利用用户与诈骗电话通话情况,对受害程度进行分级。