您现在的位置是：首页 > 其它

当前栏目

cleanlab实战处理二之处理多分类任务标签

处理实战任务分类标签

2023-09-14 09:13:20 时间

0.总结

LawsonAbs的认知与思考，不一定完善和准确，还请各位读者怀批判思维阅读。
持续更新

1.需求

想使用cleanlab 这个工具，找出数据中错误的人工标注的标签。
普通的标签任务有两种：

单标签
多标签
单标签的任务使用 cleanlab 较好实现，这里主要介绍一使用cleanlab完成多标签任务中错误标注标签的查找
实现这个任务，只需要6行代码。如下所示：

from cleanlab.pruning import get_noise_indices
# 输入
# s:噪声标签
# psx: n x m 的预测概率概率，通过交叉验证获得
ordered_label_errors = get_noise_indices(
    s=numpy_array_of_noisy_labels,
    psx=numpy_array_of_predicted_probabilities,
    sorted_index_method='normalized_margin', # Orders label errors
 )

针对之前对cleanlab的学习，分别调整好s，psx的值就可以作为参数传入了。但是它们的格式该怎么控制呢？

2.数据格式

这里以我做的一个任务为例，介绍一下s，psx取值的情况。

有1000个样本，153中标签，每个样本可以有多个标签。

原始标签 s
在一个实体可以分为很多类的这种任务中，s是一个list of list，但是必须其中的每个list都必须是numpy array类型，那么最后得到的s长如下的样子：
概率矩阵 psx
是一个n*m的矩阵，不过依然是用numpy 中的arraay存储。格式如下：

3.运行结果

在这里插入图片描述
得到的结果中，如果是为True，则说明该人工标注的标签可能存在问题。

4.存在的问题

4.1

可能在运行的过程中出现如下问题：
cleanlab ValueError: operands could not be broadcast together with shapes (10,195),(2,)
这种问题的原因就是标签数对应不上导致出错。上面的这个报错(10,195),(2,)指的是你想做一个10*195的分类，但实际存在的标签只有2个，这个工作就无法进行下去所以报错了。也就是 {总标签集合}的个数 > {实际出现的标签集合}的个数
修改的方法就是：只将人工标注的标签的集合总数作为m值。

5.参考文章

https://github.com/cgnorthcutt/cleanlab/issues/41

猜你喜欢

音视频播放器开发——实现变速播放
SAP CRM CL_CRM_BOL_ENTITY实例的sendable属性是什么时候置位的
包含目录、库目录、附加包含目录、附加库目录、附加依赖项之详解
Microsoft SDK 中Sample案例之Amcap項目的运行方法(转)
原形头像
使用ant执行Java代码
接触了那么多，你懂什么是自动化测试?
ruby的第一次使用
【云原生 • Kubernetes】认识 k8s 网络、外部网络访问 k8s 内部服务
LINQ动态组合查询
【求根问题】循环查找、二分查找、牛顿迭代法，三种方式求解平方根、立方根问题
Emacs之multi-occur替代grep(五十八)
142：vue+openlayers 测量长度和面积，modifyend后更改数值
DayDayUp：计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》课程讲解之十大知识领域之4辅助—项目人力资源管理

相关主题

Java时间处理
JAVA的异常处理
Python 异常处理
自然语言处理
九、处理Cookie
Redis过期处理
IO异常处理
MFC-2消息处理
1.C++异常处理
06、GO异常处理
python日期的处理
异常捕获处理
C++的异常处理
PHP-异常处理
10异常处理
异常处理.Java
图片处理
形态学处理

zl程序教程