您现在的位置是：首页 > 硬件

当前栏目

【机器学习】使用伪标签进行半监督学习

机器学习进行标签监督使用

2023-09-11 14:21:08 时间

使用伪标签进行半监督学习，在机器学习竞赛当中是一个比较容易快速上分的关键点。下面给大家来介绍一下什么是基于伪标签的半监督学习。在传统的监督学习当中，我们的训练集具有标签，同时，测试集也具有标签。这样我们通过训练集训练到的模型就可以在测试集上验证模型的准确率。

然而使用伪标签的话，我们则可以使用训练集训练出一个最好的模型，然后再去除测试集的真实的标签，然后用这个已经train好的模型去predict测试集的标签。然后将这个predict后的标签假装认为是真实的标签，也就是“伪标签”。将其放到原来的训练集当中，同时再次开始训练出一个最新的model。

最后再用这个最新的model，在我们的测试集上用真实的标签来验证模型的正确性。整体流程如下图所示：

在半监督学习当中，用无标签数据的优点如下:

有标签数据往往意味着高成本和难以获得，但无标签数据量大又便宜。
通过提高决策边界的精确性，它们能提高模型的稳健性。
在机器学习竞赛当当中常常用来上分

具体的步骤整理如下，和大家一起看一下：

将有标签部分数据分为两份：train_set&validation_set，并训练出最优的model1
用model1对未知标签数据(test_set)进行预测，给出伪标签结果pseudo-labeled
将train_set中抽取一部分做新的validation_set，把剩余部分与pseudo-labeled部分融合作为新的train_set，训练出最优的model2
再用model2对未知标签数据(test_set)进行预测，得到最终的final result label

猜你喜欢

C语言之container_of原理单步拆解(七十七)
分区表建立索引
Flask全套知识点从入门到精通，学完可直接做项目
Centos图形化操作
【z03】Mayan游戏
深入浅出，新一代跨平台抓包&调式利器Fiddler Everywhere
[Ruby] Class
TextView添加链接
rk3288驱动调试
弊端造成当时的计算机应用未能迅速得到推广
PID算法，PID各参数含义，PID调节
a29.ansible 生产实战案例 -- 基于二进制包安装kubernetes v1.20 -- 集群升级(二)

相关主题

数据分析和机器学习
[机器学习] 集成学习
机器学习基础篇_1/2
机器学习和统计学习
机器学习之深度学习
【机器学习】2、SVM
机器学习总结

zl程序教程

当前栏目

【机器学习】使用伪标签进行半监督学习

相关文章