基于上下文掩码与多模态对齐两阶段的脑视觉重建方法
摘 要:脑视觉解码旨在揭示大脑视觉编码机制,从功能性磁共振成像(functional magnetic resonance imaging,fMRI)数据中解码视觉刺激。传统方法重建的视觉刺激常因特征丢失而缺乏语义信息。本文提出一种脑视觉解码框架,该框架融合了上下文掩码与多模态对齐两阶段编码器实现脑视觉重建,以增强视觉刺激的重建质量。首先,双阶段 fMRI自编码器特征学习模块,其中第一阶段采用 fMRI 上下文掩码自编码器(fMRI contextual mask autoencoder,fCAE)提取图像去噪后的特征表示,并引入潜在上下文回归器以减少特征丢失;第二阶段通过多模态特征对齐进一步优化fCAE 编码器,以增强重建视觉刺激的语义信息。其次,潜在扩散模型的视觉重建模块,该模块以 fCAE 编码器的输出作为控制条件,实现从大脑活动到视觉刺激的精确重建。实验结果表明,相较于基准模型,本方法在重建视觉刺激的语义准确性(CLIP Score)上提升了 10%。
论文下载: