3.1 诈骗电话识别模块

该模块用于精准识别诈骗电话。对于被网络爬虫标记且具有异常通信特征的用户,采用CART决策树模型进行识别。而对于活跃期短或新出现的诈骗电话,利用用户异常主叫及其前后通话行为事件链模型进行识别。

3.1.1 标签样本爬取及样本标记

由于大量已标记的诈骗/骚扰电话样本获取困难。因此采用网络爬虫的方式,将所有样本号码提交到360、百度等网站,利用这些网站自有的黑名单库对样本号码进行检测,爬取被各种手机助手标记的疑似诈骗/骚扰号码信息。将这些可疑号码信息导入数据库用于模型训练。

由于用户在各种手机助手标记手机号码时的不确定性,采用以下方法来提升标记结果的准确性。

(1)当360和百度对同一号码标记,得到的结果相同时,采用该标记结果。

(2)当360和百度对同一号码标记,得到的结果不相同时,对该号码在行为特征上进行分析,选择行为特征逻辑上与标记结果比较符合的作为最终标记结果。如号码1822553****,在百度上标记为骚扰电话,在360上标记为正常号码,从数据库中分析此号码通信行为特征可知,该号码在一天内主叫通话次数14次、主叫率1、主叫联系人个数14、主叫外地联系地个数14、被叫通话次数0、回拨率0、联系人/通话次数比例1等,不太符合正常手机用户的通信行为,因此将该号码标记为骚扰电话。

3.1.2 特征选择及特征统计分析

考虑到诈骗/骚扰电话、响一声电话、呼死你电话在通信行为上与正常电话之间必然存在某些区别,而且这些电话多为主叫,因此选取以下通信行为特征(包括主叫通话次数、主叫外地通话次数、主叫率、主叫联系人个数、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、被叫通话次数、回拨率、活动基站数、联系人/通话次数比例等)进行统计分析。

对某一天某个省的信令数据进行统计分析,以下通过表格的方式对4种号码类型的各项通信特征的统计值进行具体展现,如表1所示。

表1 4类号码通信特征统计值

选择统计分析下较显著的特征(主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例),将两两特征进一步关联分析,用图2直观地展现这4种号码类型在特征上的区别。

4类号码特征区别

  • UC3846控制芯片工作原理控制图 逆变焊机原理与用途
  • 数字万用表电阻档测试二极管正反向没有阻值(使用万用表测量二极管的正向电阻,为什么各档)
  • 学单片机需要学数电模电吗(学单片机要先学数电模电吗)
  • 电工怎么选择适合自己用的万用表(电工初学者买什么样的万用表好)
  • 单片机需要同时运行多个任务怎么办(单片机怎么同时执行多个任务)
  • 电机保护的方案取决于负载的机械特性
  • 绝缘电阻表正负搭接不复零位是怎么回事
  • 短路怎么用万用表查