zl程序教程

您现在的位置是:首页 >  Java

当前栏目

IEEE TIP 2022 | 基于食材区域发现及区域间关系建模的食品图像识别和食材预测

2023-02-18 16:43:20 时间

00 导语

本期分享我们和美团视觉智能部视觉内容理解组合作发表于IEEE TIP2022的研究工作“Ingredient-Guided Region Discovery and Relationship Modeling for Food Category-Ingredient Prediction” (Wang Zhiling, Min Weiqing, Li Zhuo, Kang Liping, Wei Xiaoming, Wei Xiaolin, Jiang Shuqiang) 。IEEE TIP的全称为IEEE Transactions on Image Processing,是计算机视觉和图像处理领域的主流国际期刊,当前影响因子为11.041。

由于食品在人们生活中的基础性地位,来自物联网、社交网、互联网等各种网络产生的海量多媒体食品数据在食品工业和餐饮服务业等诸多领域,及食品营养和疾病健康等社会生活的诸多方面蕴含着广阔应用前景和社会价值,逐渐形成了“食品计算”[1]这一新兴方向。食品图像类别识别及食材预测作为食品计算的基本任务,在营养评估和食品推荐等应用中发挥重要的支撑作用。食品是由复杂多变的食材组成,挖掘食材视觉区域可以更好地帮助我们识别其类别。此外,食材间关系也很重要,如食材间的共现关系和互斥关系等。基于此,我们提出了一种多任务食品联合学习方法同时进行食品类别识别和食材预测。该方法主要由食材视觉区域发现和食材关系学习两部分组成。针对食材视觉区域发现,通过预先构建好的食材字典将2D特征图分组为具体的食材区域,并采用U形先验正则化食材的出现频率,提高食材区域的发现能力。在食材关系学习中,构建了面向食材的语义-视觉图,并通过图卷积网络学习食材间的关系。该方法采用多任务学习优化整个网络,同时进行食品类别识别和食材预测。本方法在三个基准数据集(ETH Food-101、Vireo Food-172和ISIA Food-200)上进行评估,验证了所提方法的有效性。

论文链接:

https://ieeexplore.ieee.org/document/9846887

课题组主页:

http://123.57.42.89/FoodComputing__Home.html

01 引言

食品图像分析作为食品计算[1]的一项基本任务,在营养评估、食品卡路里估计和食品推荐等食品相关应用中发挥至关重要的作用。食品图像分析主要包括食品类别识别和食材预测。食品类别识别属于细粒度识别,需要对图像内容进行视觉分析后获知其对应的食品类别,因此挖掘细微的判别性区域(如食材相关的区域)非常重要。食材预测通常比食品类别识别更有挑战性,因为食材的视觉模式变化多样且经常相互混合。而食材之间复杂的关系进一步加剧了食材预测的挑战。

为了充分利用食品信息,本文主要考虑以下三个因素:1) 一道菜中包含各种食材,这些食材常以不同的比例出现在图像的不同位置。视角、光照条件、烹饪和切割方式等因素也会导致食材的大小、形状和颜色等出现很大的视觉差异。因此,发现并提取多样化的食材区域十分关键。2)同一食品类别中食材组成及其关系十分复杂,大多数食品通常由混合在一起的各种食材组成,而不是完全分开。此外某些特定组合的食材总是频繁地同时出现,而某些食材对是互相排斥的。因此如何有效建模食材间的关联关系也是提升食材预测性能的重要因素。3)多任务学习[2-5]可以帮助挖掘食品类别和食材之间的相互关系,同时改进这两个任务的性能。例如食材预测可以帮助获取食品类别的食材构成,进一步提升食品类别识别的性能;反过来,食品类别识别可以引导网络预测类别对应的食材组成,找到类别-食材间映射关系,提高食材预测的准确率。

针对上述问题,本文提出了一种面向食材的多任务食品联合学习方法,同时进行食品类别识别和食材预测。该方法主要由食材视觉区域提取和食材关系建模学习构成。食材视觉区域提取通过构建一个食材字典来捕获食品图像中的多样化食材区域并获得相应的食材分配图,进而用于发现并提取相应的食材特征;对于食材关系建模,利用食材视觉表征作为节点,食材词嵌入间的语义相似度作为边,构建面向食材的语义-视觉图,并通过图卷积网络对食材间的关系进行建模和学习。为了验证方法的有效性,本文在三个基准数据集(ETH Food-101[6]、 Vireo Food-172[7]和 ISIA Food-200[8])上进行了大量实验,并进一步通过食材分配图和食材注意力图的可视化展示了所提方法的优越性。

02 方法介绍

本文所提出的多任务食品联合学习框架如图1所示,主要由两部分组成:食材视觉区域提取(Ingredient-oriented Visual Region Discovery,IVRD)和食材图关系建模学习(Ingredient-oriented Graph Relationship Learning,IGRL)。

图1 多任务食品类别-食材联合学习框架

2.1 食材视觉区域提取

对于每个食品类别,本文设计一个食材字典 ,其中每个向量 表示相应食品类别的食材概念, 是该类别的食材总数。根据对食材的统计数据构建 并对其随机初始化,将最后一个卷积层的特征图 联合食材字典 一起学习具体的食材区域特征,其中分别是特征图的通道数、高度和宽度。具体为通过比较特征图 和食材字典 以生成食材分配图 。其中 的计算公式如下:

s_{i j}^{k}=\frac{\exp \left(-\left\|\left(x_{i j}-d_{k}\right) / \beta_{k}\right\|_{2}^{2} / 2\right)}{\sum_{k} \exp \left(-\left\|\left(x_{i j}-d_{k}\right) / \beta_{k}\right\|_{2}^{2} / 2\right)}

其中 表示 的可学习因子。

在此过程中,对每种食材采用U形分布作为先验来控制食材出现的概率, 提高食材区域的发现能力。具体为,在获得食材分配图 之后,利用高斯核和最大池化操作作为食材检测器 检测每个食材的出现概率,其中 是高斯核,*表示卷积操作, 。将此食材检测器应用在每个食材分配图 上以确定每种食材的出现概率,并将 个食材检测器的所有输出融合成一个向量 。假设 表示食材 在 中出现的条件概率,通过将所有向量 融合成一个矩阵 ,计算该经验分布 。同时,假设已知的概率分布 ,即U形分布,然后使用Earth Mover Distance[9]将与对齐:

E M D\left( p\left(d_{k} \mid X_{1: N}\right), \hat{p}\left(d_{k} \mid X_{1: N}\right) \right) \\ = \int_{0}^{1}\left|F^{-1}(z)-\hat{F}^{-1}(z)\right| d z

其中 是经验分布和先验分布的累积分布函数, 。

基于食材分配图 和食材字典 对食材特征图进行池化以进一步获得食材区域特征,并利用 来反向更新食材字典 中的向量值。最后,通过区域注意力对食材区域特征重新加权,得到最终的食材区域特征 。

2.2 食材关系建模学习

挖掘不同食材之间的关系有助于提高食品类别识别和食材预测的性能,因此本文提出构建一个面向食材的语义-视觉图,学习食材间的相互关系,其中食材图的节点表示不同食材的视觉表征,食材图的边表示食材词之间的语义关系。

对于食材图中的视觉节点,使用所有食材对应的视觉表征。具体来说,本文使用食材分类器中全连接层的权重与最后一个特征图 相乘,并将每个食材乘积后得到的视觉表征进行池化,得到每个食材的视觉嵌入,作为食材图中的节点:

Q_{n}=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} w_{n} X(i, j)

其中 是特征图 中位置 对应值, 是第 个食材在全连接层中的权重。

对于食材图中的语义边,本文对每个食材词使用Word2vec[10]获得对应的语义嵌入 v,然后计算两个食材语义嵌入之间的余弦相似度:

a_{i, j}=\cos \langle v_{i}, v_{j}\rangle =\frac{v_{i} \cdot v_{j}}{\left|v_{i}\right|\left|v_{j}\right|}

其中 表示两个食材语义嵌入之间的余弦相似度。利用这些相似度构建图的邻接矩阵,并进一步将其作为食材图的边。

将食材图输入到图卷积网络(Graph Convolutional Network,GCN)中学习食材之间的关系。最后, 从图卷积网络获得输出 ,并使用全局平均池化 获得最终输出特征:

f_\text{graph}=f_\text{GAP}(G)

在食材图学习过程中,同时考虑了视觉和语义嵌入,并利用GCN使食材语义嵌入和视觉嵌入相互交互,以学习更全面的表征。

2.3 多任务学习

在获得食材特征 和 后,将二者融合在一起并将它们输入两个分类器。对于食品类别识别,使用交叉熵损失函数:

L_{c}=-\sum_{i=1}^{n} y_{i} \log \left(\hat{y}_{i}\right)

对于食材预测,使用二元交叉熵函数:

L_{b}=-\sum_{j=1}^{m} \sum_{i=1}^{n}\left\{y_{i j} \log \left(\widehat{y_{i j}}\right)+\left(1-y_{i j}\right) \log \left(1-\widehat{y_{i j}}\right)\right\}

总损失函数如下:

L=L_{c}+L_{b}+\lambda E M D

其中 是平衡因子。

2.4 模型推理

本文提出的模型为每个食品类别学习不同的食材字典 ,并在经过端到端训练后获得相应决策函数 ,其中 使用特征图 和对应的食材字典 来预测食品类别及其食材成分, 为参数。在推理过程中,模型利用所学到的字典对测试图像的特征图进行分配并获得对应食材区域特征,然后使用注意力向量重新加权这些特征。同时,模型使用食材分类器中全连接层的训练权重乘以来自最后一个卷积层的特征图获得视觉嵌入作为节点,使用食材词的语义相似度作为边构建食材图,并将其送入图卷积网络。最后,模型将两个分支的输出特征融合并输入两个分类器,分别得到食品类别识别和食材预测的结果。

03 实验

3.1 实验数据

本文所采用的三个基准数据集是ETH Food-101[6]、Vireo Food-172[7]和ISIA Food-200[8]。它们均包含食品类别和食材标注。ETH Food-101是一个经典的西餐数据集,包含来自101类的101,000 张图像;Vireo Food-172 是一个中餐食品数据集,包含来自172类的110,241张食品图像,食材总数为353。ISIA Food-200是一个混合的食品数据集,包含197,323张图像,共计200个食品类别和399种食材。

3.2 实验设置

本文使用在 ImageNet 上预训练的 ResNet-101 作为基础网络。对于实验性能评估,使用Top-1准确率(Top-1)和Top-5准确率(Top-5)对单标签食品类别识别进行评估。食材预测使用 Micro-F1 和 Macro-F1 作为评估指标,该指标可以同时考虑食材预测的准确率和召回率。

3.3 实验结果与分析

3.3.1 消融实验

表1 食品类别识别消融实验(%)

表2 食材预测消融实验(%)

本文在消融实验中,对于三个数据集首先验证了多任务学习框架的性能,然后对食品类别识别和食材预测进行了单个任务消融研究,实验结果如表1和表2所示。其中,本文将基础网络用于食品类别识别(Food Category Recognition,FCR)和食材预测(Ingredient Prediction,IP),然后以联合学习方式(Joint Learning,JL)进行相同的实验。从表中可以看出,JL的性能超过了单个任务,意味着这两个任务共同学习,相互促进;当将食材区域分配策略(Ingredient Region Assignment,IRA)引入到网络中,Top-1准确率和Macro-F1值均有所提高;当引入食材注意力机制(Ingredient Attention,IA)来增强区域特征时,实验性能获得进一步提升;当将食材关系学习(Ingredient-oriented Graph Relationship Learning,IGRL)引入到网络中后,两个任务的性能均进一步提高,意味着食材关系挖掘的重要性。

3.3.2 ETH Food-101 实验结果分析

本文进一步在食品类别识别和食材预测两个任务上分别与当前主流方法进行了性能比较,实验结果如表3和表4所示。对于食品类别识别,本文的方法超越了其他所有方法,相较于MSMVFA[11]有1.77%的性能提升,表明探索不同食材的组合方式和建模其关系的优越性。本文的方法比忽略了区域间关系建模的PAR-Net[12]高出3.06%,证明使用 GCN 建模食材关系带来了较高的性能提升。

对于食材预测,本文的方法优于其他所有方法,F1指标超过SENet154[13]近10%,超过 DSDL[14]接近3%,表明发现特定的食材区域可以帮助识别相应的食材类型。

表3 在 ETH Food-101 上的食品类别识别性能比较(%)

表4 在 ETH Food-101 上的食材预测性能比较(%)

3.4 实验定性结果与可视化分析

图2 方法中获取的部分样本的食材分配图和注意力图

图3 食材分配图中对应的具体食材区域

本文进一步在图2和图3中对食材分配图和食材注意力图进行可视化。图2可视化了本文方法中的食材分配图和食材注意力图。以类别“Bread pudding”为例,本方法可以将面包和鸡蛋等一些食材进行定位,并在注意力图中发现了最具辨别力的区域。图3显示了本文方法对应的详细食材区域。定性实验结果表明,本文的方法能够发现有意义的食材区域,并能够提取关键性区域进行识别。

图4 一些测试样本的实验结果

图4展示了一些测试样本的实验结果。真阳性、假阳性和假阴性预测食材分别被赋予绿色、红色和橙色, GT 表示对应的真实标签。结果显示图中的食材预测结果并不总是正确的,其可能的原因是混合食材区域没有明确划分以及食材空间结构的变化等。此外,本文所提的方法在部分情况下也可能无法正确识别食品类别。例如对于“Greek salad”和“Caesar salad”,模型对“Greek salad”做出了错误的预测,可能的原因是这两种食品的视觉模式非常相似,并且它们有较多共同食材,如生菜和大蒜等。

参考文献

[1] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM Computing Surveys, vol. 52, no. 5, pp. 1–36, 2019.

[2] J. Chen and C. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in Proceedings of the ACM on Multimedia Conference, 2016, pp. 32–41.

[3] X.-J. Zhang, Y.-F. Lu, and S.-H. Zhang, “Multi-task learning for food identification and analysis with deep convolutional neural networks,” Journal of Computer Science and Technology, vol. 31, no. 3, pp. 489–500, 2016.

[4] C. Liu, Y. Liang, Y. Xue, X. Qian, and J. Fu, “Food and ingredient joint learning for fine-grained recognition,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 31, no. 6, pp. 2480–2493, 2021.

[5] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2021, pp. 8903–8911.

[6] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in Proceedings of the European Conference on Computer Vision, 2014, pp. 446–461.

[7] J. Chen and C. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in Proceedings of the ACM on Multimedia Conference, 2016, pp. 32–41.

[8] W. Min, L. Liu, Z. Luo, and S. Jiang, “Ingredient-guided cascaded multiattention network for food recognition,” in Proceedings of the ACM International Conference on Multimedia, 2019, pp. 1331–1339.

[9] A. Andoni, P. Indyk, and R. Krauthgamer, “Earth mover distance over high-dimensional spaces.” in SODA, vol. 8, 2008, pp. 343–352.

[10] Q. Le and T. Mikolov, “Distributed representations of sentences and documents,” in Proceedings of the International Conference on Machine Learning, 2014, pp. 1188–1196.

[11] S. Jiang, W. Min, L. Liu, and Z. Luo, “Multi-scale multi-view deep feature aggregation for food recognition,” IEEE Transactions on Image Processing, vol. 29, no. 1, pp. 265–276, 2020.

[12] J. Qiu, F. P. W. Lo, Y. Sun, S. Wang, and B. Lo, “Mining discriminative food regions for accurate food recognition,” in Proceedings of the British Machine Vision Conference, 2019.

[13] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 7132–7141.

[14] F. Zhou, S. Huang, and Y. Xing, “Deep semantic dictionary learning for multi-label image classification,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[15] E. Ben-Baruch, T. Ridnik, N. Zamir, A. Noy, I. Friedman, M. Protter, and L. Zelnik-Manor, “Asymmetric loss for multi-label classification,” arXiv preprint arXiv:2009.14119, 2020.

[16] K. Yanai and Y. Kawano, “Food image recognition using deep convolutional network with pre-training and fine-tuning,” in Proceedings of the IEEE International Conference on Multimedia and Expo Workshops, 2015, pp. 1–6.

[17] N. Martinel, C. Piciarelli, and C. Micheloni, “A supervised extreme learning committee for food recognition,” in Computer Vision and Image Understanding, vol. 148, 2016, pp. 67–86.

[18] P. McAllister, H. Zheng, R. Bond, and A. Moorhead, “Combining deep residual neural network features with supervised machine learning algorithms to classify diverse food image datasets,” in Computers in Biology and Medicine, vol. 95, 2018, pp. 217–233.

[19] C. Liu, Y. Cao, Y. Luo, G. Chen, V. Vokkarane, and Y. Ma, “Deepfood: Deep learning-based food image recognition for computer-aided dietary assessment,” in Proceedings of the International Conference on Smart Homes and Health Telematics, 2016, pp. 37–48.

[20] H. Wu, M. Merler, R. Uceda-Sosa, and J. R. Smith, “Learning to make better mistakes: Semantics-aware visual food recognition,” in Proceedings of the ACM Multimedia Conference, 2016, pp. 172–176.

[21] P. Pandey, A. Deepthi, B. Mandal, and N. B. Puhan, “FoodNet: Recognizing foods using ensemble of deep networks,” in IEEE Signal Processing Letters, vol. 24, no. 12, 2017, pp. 1758–1762.

[22] S. Ao and C. X. Ling, “Adapting new categories for food recognition with deep representation,” in Proceedings of the IEEE International Conference on Data Mining Workshop, 2015, pp. 1196–1203.

[23] M. Bolanos and P. Radeva, “Simultaneous food localization and recognition,” in Proceedings of the International Conference on Pattern Recognition, 2017, pp. 3140–3145.

[24] P. R. L´opez, D. V. Dorta, G. C. Preixens, J. M. Gonfaus, and J. G. Sabat´e, “Pay attention to the activations: a modular attention mechanism for fine-grained image recognition,” in IEEE Transactions on Multimedia, vol. 22, no. 2, 2020, pp. 502–514.

[25] E. Aguilar, M. Bola˜nos, and P. Radeva, “Food recognition using fusion of classifiers based on cnns,” in Proceedings of the International Conference on Image Analysis and Processing, 2017, pp. 213–224.

[26] H. Hassannejad, G. Matrella, P. Ciampolini, I. D. Munari, M. Mordonini, and S. Cagnoni, “Food image recognition using very deep convolutional networks,” in Proceedings of the International Workshop on Multimedia Assisted Dietary Management, 2016, pp. 41–49.

[27] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 7132–7141.

[28] S. Kornblith, J. Shlens, and Q. Le, “Do better ImageNet models transfer better?” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2019, pp. 2661–2671.

[29] F. Yu, D. Wang, E. Shelhamer, and T. Darrell, “Deep layer aggregation,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 2403–2412.

[30] N. Martinel, G. L. Foresti, and C. Micheloni, “Wide-slice residual networks for food recognition,” in IEEE Winter Conference on Applications of Computer Vision, 2018, pp. 567–576.

[31] Q. Le and T. Mikolov, “Distributed representations of sentences and documents,” in Proceedings of the International Conference on Machine Learning, 2014, pp. 1188–1196.

[32] C. Yin, S. Yang, S. Chen, H. Andrew, and B. Serge, “Large scale fine-grained categorization and domain-specific transfer learning,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 4109–4118.

[33] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, X. Wei, and S. Jiang, “ISIA food-500: A dataset for large-scale food recognition via stacked globallocal attention network,” in Proceedings of the 28th ACM International Conference on Multimedia, 2020, pp. 393–401.

[34] D. Han, S. Yun, B. Heo, and Y. Yoo, “Rethinking channel dimensions for efficient model design,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2021, pp. 732–741.

[35] M. Bola˜nos, A. Ferr`a, and P. Radeva, “Food ingredients recognition through multi-label learning,” in Proceedings of the International Conference on Image Analysis and Processing. Springer, 2017, pp. 394–402

[36] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778.

[37] Z.-M. Chen, X.-S. Wei, P. Wang, and Y. Guo, “Multi-Label Image Recognition with Graph Convolutional Networks,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2019.

[38] X.-S. Vu, D.-T. Le, C. Edlund, L. Jiang, and H. D. Nguyen, “Privacypreserving visual content tagging using graph transformer networks,” in Proceedings of the ACM International Conference on Multimedia, 2020.