为了推动该研究,邓伟洪研究团队构建了一个新的测试库——RFW,以科学客观地评测人脸识别中的偏差。在RFW数据库的基础上,研究人员验证了微软、亚马逊、百度、旷视的商业API和学术界最先进的4个算法。

“这种识别的偏差确实存在,一些地区的错误率甚至高于西方国家的两倍。”邓伟洪说。

该论文的评审专家表示,RFW与现有数据库相比,该数据库中的数据分布更均匀,这将成为跨国家/地区识别的一个较好的基准评价数据。

为了探究这种偏差是否是由训练数据的分布不平衡引起的,研究人员收集了一个涵盖全球各地区人类信息的训练数据库,最终发现偏差的发生受到数据和算法两方面影响。

该论文第一作者、北京邮电大学博士生王玫解释,数据库训练数据平衡、算法相同,但某些国家/地区人类的面部信息识别难度较大,导致识别准确率较低。

如何在数据少、面部识别难的情况下提高识别率?研究人员并没有放弃,他们决定进一步的研究算法,借助算法让人脸识别工具举一反三。

学习靠“自觉”

传统机器学习数据库搭建过程中需要人工标注个人信息,这一操作面临隐私泄露的风险。用于物体识别的无监督域自适应方法给了研究人员启发。

该方法采用无监督学习的方式,将源域和目标域映射到域不变的特征空间,并提高目标域性能。研究人员想通过算法解决这一问题,让机器自行学习。

“这就相当于研究人员把试卷出好,机器作答。”邓伟洪说。

实现并不简单,在具体操作层面,物体识别不同于人脸识别。物体识别的源域和目标域可以重叠,且信息获取相对便宜,充足的源域数据使识别工具能够区分和判别目标域信息。

因此,研究人员提出了一种信息最大化自适应网络。王玫介绍,该方法一方面减小源域和目标域的全局分布差异,另一方面能够学习有区分性的目标域特征。

“也就是说,卷积神经网络可以在无监督的情况下,‘自觉’地学习目标域人脸的特征。”王玫说。

为了解决两个域之间类别不重叠的问题,信息最大化自适应网络采用谱聚类算法生成“伪标签”,并在监督下利用伪标签对网络进行预适应,初步提高目标域的性能。

这种聚类方案与其他不适用于人脸识别的域自适应方法有着本质区别。王玫解释,新方法可以在全新的目标域上自主学习,不需要人工干预,避免了隐私泄露的风险。

为了进一步提高网络输出的鉴别性,研究人员还提出了一种新的基于互信息的自适应方法,它以无监督的方式在目标域的特征之间产生更大的间距。

  • UC3846控制芯片工作原理控制图 逆变焊机原理与用途
  • 数字万用表电阻档测试二极管正反向没有阻值(使用万用表测量二极管的正向电阻,为什么各档)
  • 学单片机需要学数电模电吗(学单片机要先学数电模电吗)
  • 电工怎么选择适合自己用的万用表(电工初学者买什么样的万用表好)
  • 单片机需要同时运行多个任务怎么办(单片机怎么同时执行多个任务)
  • 电机保护的方案取决于负载的机械特性
  • 绝缘电阻表正负搭接不复零位是怎么回事
  • 短路怎么用万用表查