作为3D 人脸重建、人脸识别、表情迁移及美化等应用的核心基础技术,人脸关键点检测算法一直是工业界和学术界的研究热点。
近日,在第25届国际模式识别大会(ICPR 2020)举办的人脸106关键点检测挑战赛中,搜狗AI团队荣获冠军,彰显其在计算机视觉领域的核心技术实力。
ICPR 2020大会是模式识别领域的顶级国际会议,由国际权威学术组织---国际模式识别协会(The International Association for Pattern Recognition,IAPR)主办,在本届大会组织的人脸识别领域竞赛单元-人脸106关键点检测比赛中,搜狗AI 团队在预赛验证和决赛测试两阶段均取得第一,击败OPPO研究院、美团视觉中心、东南大学、西安交大等多支强队,最终一举摘得桂冠。
图1 本届挑战赛决赛阶段前五名结果
ICPR人脸106关键点检测挑战赛是什么?
人脸关键点检测算法的研究重点是在不同表情、性别、年龄、姿态、光照条件下,准确定位人脸轮廓及五官关键点,近年来偏向实用的人脸关键点检测的国际评测陆续举办,国际顶级计算机会议ICME 2019就曾举办人脸关键点检测的比赛。
人脸106关键点检测挑战赛(Grand Challenge of 106-p Facial Landmark Localization)是ICPR 2020举办的八项比赛之一,相较于之前的评测,本次ICPR 2020大会举办的评测难度更大。其测试样本涵盖大姿态、极端表情、遮挡等多种高难度、复杂的情况,且训练样本少,对算法的泛化能力、准确性及鲁棒性等多个方面提出了巨大的挑战,在比拼检测精度的同时,更加追求技术的实用化程度,对模型复杂度做了更加严格的要求,模型大小需要低于20 MB,运算复杂度不超过 1GFLOPs,希望推动更加高效并且鲁棒的轻量级人脸关键点检测算法的技术进步,因此极富学术和实用价值,吸引了数十家企业和高校的参赛队伍参赛。
图2 本届比赛数据集图片样例
搜狗本届比赛夺冠的技术优势是什么?
作为本届赛事的冠军队伍,搜狗AI团队在人脸关键点检测技术上有三个重要突破。
首先,采用基于HRNet基础模型的改进版本,利用不同分辨率之间特征全融合的方式,有效学习不同尺度图像的语义信息,同时为了保证算法的精度,搜狗增加了HRNet不同分辨率分支的通道数,从而在人脸关键点检测任务上表现出了出色的效果;
图3 使用的HRnet网络结构
其次,在卷积层部分采用组卷积,并且把其中的瓶颈层(BottleNeck)改换为MobileNet V2中的逆残差结构(Inverted Residuals),设置逆残差结构的扩展参数为1,从而有效的降低了模型的复杂度;经典残差结构:1x1(压缩)->3x3(卷积)->1x1(升维),逆残差结构:1x1(升维)->3x3(dw conv+relu)->1x1(降维+线性变换),这对基于移动端设计的小模型有广泛的效果提升作用。
图4 残差结构图
最后,除了使用常规的平移、旋转等数据增强策略,还使用了PDB(Pose-based Data Balancing)策略。该策略统计训练数据集中的不同姿态的图片的数量,然后通过简单的复制数量较少的姿态的图片,从而解决了不同的姿态的数据不均衡的问题,对大姿态下关键点的预测起到有效的作用。
表1 本届比赛使用的网络结构
最终搜狗的算法在模型大小12MB,模型计算复杂度0.887GFLOPs的基础上,取得了本次比赛中最好的性能,模型累计误差分布曲线面积指标(AUC)达到80.52,归一化平均误差(NME)为1.58,预测失误率(FR@0.08)只有0.05。
图5 人脸关键点的累计误差分布图
(曲线与横轴围成的面积越大算法性能越优异)
图5搜狗AI的比赛测试结果样例
坚持技术创新与应用落地并重,搜狗核心AI技术持续领先
搜狗在自然交互与知识计算的人工智能战略指引下,坚持以语言为核心的人工智能研究,近年来在语音、计算机视觉、问答、翻译、对话等核心技术领域取得突破性进展。
在技术创新方面,搜狗在计算机视觉领域一直保持着强劲实力。通用技术方向,于2018 年在CVPR WAD自动驾驶视觉竞赛中夺得道路目标检测任务第一名;在国际自动驾驶领域权威评测集Cityscapes实例分割评测任务中同样拿到第一名的好成绩。OCR方向,于2019年11月刷新了ICDAR 2019 ArT检测、识别、端到端三项单元的新记录;人脸识别方向,于2018年11月在人脸识别顶级评测 MegaFace 的Face Identification(人脸识别)任务中,基于百万规模级别的人脸数据库以 99.939% 的识别准确率斩获大赛第一名;本次ICPR 2020人脸106关键点检测挑战赛中又一次取得技术突破获得冠军,证明了搜狗在计算机视觉领域的领先实力。
在应用落地方面,搜狗自研的人脸相关技术已经应用于搜狗核心产品及解决方案中,其中,领先行业的数字人解决方案-搜狗分身已大量使用了自研的人脸关键点检测、识别以及生成技术,技术的不断突破有力确保了搜狗分身的领先优势;搜狗首创的基于模态注意力机制的语音+唇语的多模态识别技术,强噪声场景下识别准确率提升36%;搜狗最新发布的搜狗AI录音笔-E2在语音能力之外新增了视觉能力,能够支持文档图像识别OCR等技术,后续会陆续扩展人脸识别等相关应用。本次参赛的技术以应用落地为导向,已具备了大规模部署的能力,不久的将来会与搜狗分身、AI硬件、多模态识别等能力产生联动效应,进一步提升搜狗AI创新产品的用户体验。
未来,搜狗将持续在计算机视觉领域推动核心技术研发及创新,不断扩展技术成果的应用落地,带给用户更多差异化的优质体验。