多视图机器学习的宏观发展趋势
转载自:PRML Research Group
编辑:一点人工一点智能
多视图学习也称为多视角学习(Multi-view Learning),其研究主旨在于如何通过对视图间相互关系的建模与发掘,建立视图间的正则化约束或概率依赖关系,最终增强学习系统的性能。
在现实应用问题中,同一事物或对象存在不同角度和不同途径的描述形式,这些不同的描述就构成了事物的不同视图。其中,多个视图可以来自于同一模态,也可来自于不同模态,不同视图之间本质上具有潜在的内在联系,又具有独立于其他视图的语义属性。因此如何恰当地融合多个视图是一个中心问题,也是多视图学习的目标。
多视图学习在突破多视图数据处理瓶颈,实现多源异构数据的有效融合和增强等方面具有广泛的适用性,它的出现与发展对于赋予计算机理解多源异构数据能力提供了一条可行的道路。
国际机器学习大会(International Conference on Machine Learning, ICML)在2005年召开了首届多视图学习主题研讨会,推动了多视图学习的发展浪潮。自2010年起,各大国际会议接连举行了多场多视图专题研讨会,给多视图学习的发展带来了深远的影响。
目前多视图学习的理论与应用研究正处于快速发展阶段,其思想也不断渗透到相关的研究领域,助力自动驾驶、智能医疗、智慧交通与跨媒体智能等领域取得了一系列成果。
不同于传统机器学习,多视图机器学习需要额外考虑各视图对学习任务的充分性、视图间的互补性、视图间噪声类型与量级的差异性,以及视图间数据异质导致的模型与算法的特异性、视图间时序数据不同步、部分视图数据缺失等诸多要素。多视图学习的典型做法有协同训练(Co-training)[1][2][3]、协同正则化(Co-regularization)[4][5]、多核学习(Multiple Kernel Learning)[6][7][8]、子空间学习(Subspace Learning)[9][10][11][12]、间隔一致性算法(Margin-Consistency Algorithms)[13][14][15][16]、基于深度学习的多视图学习算法[30][31][32][33][34]等。
在早期多视图研究中,子空间学习方法是最具代表性的方法,其假设输入视图由一个共同的潜在子空间生成。通过将所有视图映射至一个统一的子空间,在该空间中进行视图之间的分析、匹配和融合。由于潜在子空间的维数低于任何输入视图的维数,因此子空间学习可以有效地解决"维数灾难"问题。
标准相关分析(Canonical Correlation Analysis,CCA)[35]是子空间学习方法中的代表性技术,它是一种搜索两个特征向量线性映射的统计方法,通过找出两个向量对应的线性变换,并最大化变换后特征向量之间的相关性,因此CCA被广泛应用于选择两视图数据共享的潜在子空间。在此之后,CCA被推广到由两种以上视图表示的数据,各种变体算法相继被提出,包括核CCA[37] [38]、共享核信息嵌入[39]等。
作为早期多视图学习方法,协同训练和多核学习也是备受关注的两种方法。协同训练通常在每个视图上训练独立但相关的学习者,每个学习者只使用相应视图数据并学习对应的特征。通过最大化两个学习者在有标签数据集上的预测一致性,以及最小化两个学习者在无标签数据集上预测的差异性,两个学习者相互学习并达到最优解。由于多核学习的内核自然对应不同的视图,因此多核学习在处理多视图数据方面得到了广泛的应用。在多核学习中,不同的预定义内核用于处理不同的视图,利用核函数如线性核、多项式核和高斯核等将这些内核线性地或非线性地组合在一起,这种通过组合对应于不同视图数据的内核被认为是组合多个不同视图的一种有效方法。
早期的多视图方法虽然取了不错的效果,但是通常使用的是手工构造的特征和线性嵌入函数,无法捕捉到复杂多视角数据的非线性本质。
在研究学习模型自变量与因变量之间的关系时,非线性是一个常见且重要的问题。在机器学习和计算机视觉领域,存在着各种类型的复杂数据,如文本、图像、视频和音频。现实应用中每天都会产生海量具有复杂性质的多视图数据,因此,对于多视图的研究也从早期的线性研究方法转向目前的非线性研究。
深度学习方法具有强大的特征提取能力,通过构建非线性学习层,可以有效地学习目标数据的复杂、细化、非线性和抽象的表示[36]。因此,基于深度学习的方法成为现阶段多视图研究的首选技术,并取得了不错的结果,涌现出了如双模态自编码器(Bimodal Auto-encoders, BAE)[41]、边缘敏感自动编码器(Margin-Sensitive Auto-encoder,MSAE) [40]、深度标准相关自编码器(Deep Canonical Correlated auto-encoders, DCCAE)[44]、多视循环网络(Multi-view Recurrent Neural Network)[43]、多模态深度玻尔兹曼机(Multi-modal Deep Boltzmann Machines)[47]和多视图概念学习(Multi-view Concept Learning, DMCL) [42]等深度多视模型。
除了上述的不同多视图学习理论和算法,针对具体的机器学习任务,多视图学习在许多细分领域也得到了大量应用,例如在降维[18][19]、聚类[20][21][22]、多标签学习[23][24]、多任务学习[25][26][27]、集成学习[28][29]和表示学习[48][49]等问题中。
当前的多视图学习研究仍然存在许多富有挑战性的问题,例如小样本多视图学习(Few-shot Multi-view Learning)问题、不完整或部分多视图学习(Incomplete/Partial Multi-view Learning)问题、动态多视图学习问题等。
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的