前言
最近投入进了FAS的怀抱,但是对这个新领域知之甚少,所以本文将作为该任务类型的梳理,对其任务常用的动机和提出方法进行汇总梳理,确保能够熟悉该任务,在面对该领域新的模型时不至于一头雾水。
本文将基于数篇2024年的论文进行粗略阅读,考虑到2024年的论文大抵不会开放代码,另外本篇为粗读,故本文大概率将不会涉及代码内容,有需会针对部分论文写精读。
论文列表
- MFAE: Masked Frequency Autoencoders for Domain Generalization Face Anti-Spoofing
- Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face Anti-Spoofing
- CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing
- CA-MoEiT: Generalizable Face Anti-spoofing via Dual Cross-Attention and Semi-fixed Mixture-of-Expert
- Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing
- Face anti-spoofing with cross-stage relation enhancement and spoof material perception
- Advancing Cross-Domain Generalizability in Face Anti-Spoofing: Insights Design and Metrics
- Surveillance Face Anti-Spoofing
- DiffFAS: Face Anti-Spoofing via Generative Diffusion Models
方法
MFAE: Masked Frequency Autoencoders for Domain Generalization Face Anti-Spoofing
问题
本文[1]将关注于图像频域上的问题,主要关注两个方面:
- FAS图像在不同频段参量下的特征
- 模型在跨域性能上深受低频特征影响
提出
本文提出了一种基于MAE的编码器,称为MFAE(Masked Frequency Autoencoders),编码器用于遮盖(Mask)图像部分频段上的光谱,从生成的embedding中重建图像
提出了一种辅助内容正则化(content-regularization)编码器
目标
这种基于MIM(Masked Image Modeling)的方式可用于在ViT上的自监督学习任务,降低ViT编码器在域转移(domain shift)时的敏感度
利用辅助内容正则化编码器,令编码器对低频特征不再敏感
何为频域(Frequency Domain)
相较于用2D矩阵与像素值描述RGB图像某区块颜色强度的空间域,频域则是利用傅里叶变换转换得到的一种利用频率表达像素值变化强度的域。[2]
为何要降低编码器对于低频的敏感性
在本文[1]引用的部分工作中(23,24)提出了低频参量(low-frequency components)通常含有一些平滑的物体结构,这些特征在不同域上会更加敏感。而高频参量则基本代表的是非平滑的物体结构,这些特征通常对于不同域的变化上并不敏感。
本文进行了实验,上图为一个域分类器,用于分类面部图像,使用了高通滤波器对低频进行过滤。X轴是高通滤波器的阈值大小,Y轴是准确率。
可以从图中发现两点:
第一点是当低频被过滤的越多,其模型的准确率就越低
第二点是低频多处于频域的中心
而第一点证明了低频信号回相当影响模型的准确率
模型
模型分为两个阶段和三个模块:
两个阶段是指预训练和微调
三个模块则是指频域层随机遮罩,空间域层随机遮罩,重组图像
预训练阶段:
首先将输入图像进行傅里叶变换,转换为频域
接下来随机遮盖低频信号,遮盖矩阵中1表达为不遮盖,0为遮盖,此举用于降低模型对低频的敏感性
接下来的环节是自编码器,首先是编码器,先对图像进行代币化(tokenize),生成出代币序列(sequence of tokens),将其分为两种代币类型,一种是被遮盖的(Masked),一种是可见的(Visible),具体可以参考MAE的编码器。
论文采用ViT-Tiny作为编码器的提取部分,将可见的代币输入编码器,提取低频特征,此时将输出两种代币:”learnable mask token”,”visible token”
由编码器(encoder)输出的代币将输入进一种双流(Dual-Stream)设计的解码器,是由两个解码器构成的,一个是两个解码器架构相同,但是处理的内容不同
Style Decoder是重组未遮盖的图像,Auxiliary content-regularization decoder则是重组遮盖部分的虚假人脸图像,两者皆在让编码器对低频信号不再敏感。
两者的损失最后加在一起,成为总损失
Rethinking Vision Transformer and Masked Autoencoder in
Multimodal Face Anti-Spoofing
问题
本文[5]聚焦问题于两个方面:
使用ViT学习多模态(摄像头、红外、深度)时,局部特征描述(local feature descriptors)有利于红外模态,但不利于RGB摄像头和深度模态
此外无标签的自监督训练方法中(如上文提到的MIM)尚无为多模态FAS进行自监督训练的模型
提出
本文提出了一种可用于红外的局部特征描述
提出了一种自适应多模态适配器(adaptive multimodal adapters),让ViT模型在多模态上进行微调
提出了用于多模态 FAS 自监督预训练的模态非对称掩蔽自动编码器M^{2}A^{2}E
结构
局部特征描述
本文测试了三种局部特征描述,以及一种三通道输入组成的局部特征描述,分别是:
Local binary pattern (LBP)
Histograms of oriented gradients (HOG)
Pattern of local gravitational force (PLGF)
Composition(raw gray-scale channel + HOG + PLFG)
以上四种特征描述的效果如下
自适应多模式适配器 Adaptive Multimodal Adapter(AMA)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing
问题
目前域泛化的两种方案存在局限性:
基于域标签对齐不变的特征空间或基于实例,分离一般化特征,可能会导致语义特征结构的失真,泛化能力有限。
提出
文章引入了一种与文本特征关联的新范式,利用文本特征动态调整分类器的权重
文章引入文本匹配监督、多样化风格提示技术和提示调制功能
方法
使用了CLIP和ViT
图像部分有两个编码器作提取,一个是内容,一个是风格,文本部分有一个编码器
图像部分的编码器是采用了Multi Self-Attention -> Multi Cross Attention -> MLP 的架构
为了实现Free Class,图像编码器的特征会输入进文本编码器,提取文本特征,按照二分类归类到“真实”或“欺骗”,参见Prompt Modulation。
CA-MoEiT: Generalizable Face Anti-spoofing via Dual Cross-Attention and Semi-fixed Mixture-of-Expert
问题
域泛化,跨域检测
文章决定从特征增强,特征对齐和特征补充下手
提出
文章引入了MixStyle,用于实现特征增强
文章设计了一种双重交叉注意力机制,实现特征对齐
文章设计了一种半固定的MoE,通过固定的超级专家选择性的替代MLP,实现特征补充
方法
特征增强。我们在 PatchEmbed 层之后插入一个 MixStyle,以合成来自新领域的多样化补丁嵌入,并增强训练模型的泛化性。(2)特征对齐。我们设计了一种双重交叉注意力机制,该机制扩展了自我注意力,以对齐来自多个领域的常见表示。(3)功能补充。我们设计了一种半固定的MoE(SFMoE),通过引入固定的超级专家来选择性地替代MLP。
Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing
问题
模态不可靠:FAS不同模态传感器(红外,深度)在跨域时会出现显著的域偏移
模态不平衡:过度依赖训练的模态
提出
SKIP
方法
SKIP
Face anti-spoofing with cross-stage relation enhancement and spoof material perception
主要使用了SDTA Block,将CNN和Transformer模型进行了结合,提升局部特征的学习能力
DiffFAS: Face Anti-Spoofing via Generative Diffusion Models
问题
域偏移:本文重新思考了域偏移的本质,并将其分解为两个因素:图像风格(image style)和图像质量(image quality)
提出
本文利用扩散模型,从真实面部中生成虚假样本,并将训练目标定义为欺骗图像的重建过程,这允许网络直接学习欺骗纹理,以避免纹理退化,同时减轻过拟合的影响。
DiffFAS生成框架:该框架利用扩散模型来生成高保真的跨域和跨攻击类型的面部图像。它通过将活体面部图像转换成具有相同身份但具有不同攻击风格的欺骗图像。
Spoofing Style Fusion Module (STFM):设计了一个特定模块来处理条件分支的特征图,通过计算图像的局部统计量(如局部均值和方差)来提取欺骗风格特征,并减少身份信息的干扰。
样本级相对质量损失(Relative Quality Loss):提出一种新的损失函数,将图像质量分数整合到损失计算中,使得模型在训练过程中更加关注高质量图像的特征提取,同时避免对低质量图像的过拟合。
方法
已读,待补充