基于跨模态对齐的食谱-图像检索研究综述
摘 要:随着全球肥胖问题的日益严重,食物计算作为提升人类健康的重要研究方向,已成为多领域研究的热点。跨模态食谱检索作为食物计算与跨模态检索领域的交叉前沿,具有独特的研究价值。然而,由于食谱与图像之间存在显著语义鸿沟以及在食材种类、烹饪方法和文本描述等方面的复杂性,给跨模态食谱检索任务带来挑战。随着数据集规模的扩大和技术的发展,基于双编码器、生成对抗网络(GAN)、视觉语言预训练模型(VLP)的方法逐渐成为食谱检索领域的主流技术。本文综述了基于跨模态对齐的食谱-图像检索技术的最新进展,分析不同方法的优势与局限性,并对未来的发展方向进行展望。
论文下载: