微信、QQ群短文本聊天语料总结
2023-09-11 14:17:15 时间
在文本分类任务中,语料的特性千差万别,我们需要找到适合模型并抓住数据的特性,最终才能得到较好的model。最近在文本类别标注任务,就是给文本打标签确定该文本的类别。这是一个很费人工的过程,需要认真仔细,因为我们都知道有多少人工就有多少智能。
微信、QQ短文本:
(1)如何分段
聊天文本的边界是无法确定的,那我们如何截取一个群聊的文本作为我们的一个训练样本呢。目前初步的做法是:首先约定字数,达到多少文字我们就认定可以是一个样本段落;同时加入聊天时间作为辅助标准,某一时间间隔的数据可以作为一个样本。这只是两个方向,具体实施过程还要根据实际任务来确定。明确一点,标注的一个文本段落不可太长,太长会造成主题模糊,标注时无法正确明确标签类别,还有就是溯源的时候回带来一定影响。
(2)文本特性
对话形式,不同的人随时会有发言,通俗的讲就是你一句我一句;包含“@”符号,后面接微信QQ用户名,可以说这是无用信息,但是在群聊天中大量存在;表情符号,群成员会发大量的表情;文本中充斥了大量广告、祝福,从其它处赋值粘贴的内容。
持续更新
相关文章
- 如何获取QQ里的截图app?
- 带三方登录(qq,微信,微博)
- gitlab配置通过smtp发送邮件(QQ exmail腾讯企业为例)
- 微信QQ的二维码登录原理js代码解析
- app分享时判断手机是否已安装微信或QQ客户端
- Atitit qzone qq空间博客自动点赞与评论工具的设计与实现
- java实现简单的QQ登录界面
- ML:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/模型融合)之详
- Android 自定义RecycleView实现多级树(类似qq分组列表)
- python实现QQ自动发送消息
- QT托盘消息模拟QQ消息通知
- 腾讯QQ的开发分客户端软件和服务器端软件
- Winform仿制QQ微信聊天窗口气泡
- 推荐三款视频播放器(超越QQ影音)
- 腾讯用户画像——如何为QQ画像和代理IP画像