新闻文本分类
新闻文本分类
前言一个很粗糙的新闻文本分类项目,解决中国软件杯第九届新闻文本分类算法的问题,记录了项目的思路及问题解决方法后续会进一步改进,包括:丰富训练集的数据,避免军事类、房产类、体育类的新闻数据过少,影响精度改用上限更高的Bert模型优化exe文件的页面,使其能够分别处理识别短文本和excel文件项目源码:https://github.com/bluehyssopu/NewSort项目问题链接:http
日期 2023-06-12 10:48:40PT之BERT:基于torch框架(特征编码+BERT作为文本编码器+分类器)针对UCI新闻数据集利用Transformer-BERT算法(模型实时保存)实现新闻文本多分类案例
PT之BERT:基于torch框架(特征编码+BERT作为文本编码器+分类器)针对UCI新闻数据集利用Transformer-BERT算法(模型实时保存)实现新闻文本多分类案例 目录 基于torch框架(特征编码+BERT作为文本编码器+分类器)针对UCI新闻数据集利用Transformer-BER
日期 2023-06-12 10:48:40ML之SVM:利用SVM算法(超参数组合进行多线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估
ML之SVM:利用SVM算法(超参数组合进行多线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估 目录 输出结果 设计思路 核心代码 输出结果 Fitting 3 folds for each of 12 candidates, totalling 36 fits [CV]
日期 2023-06-12 10:48:40ML之SVM:利用SVM算法(超参数组合进行单线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估
ML之SVM:利用SVM算法(超参数组合进行单线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估 目录 输出结果 设计思路 核心代码 输出结果 Fitting 3 folds for each of 12 candidates, totalling 36 fits
日期 2023-06-12 10:48:40TF之Transformer:基于tensorflow和Keras框架(特征编码+Tokenizer处理文本+保存模型)针对UCI新闻数据集利用Transformer算法实现新闻文本多分类案例
TF之Transformer:基于tensorflow和Keras框架(特征编码+Tokenizer处理文本+保存模型)针对UCI新闻数据集利用Transformer算法实现新闻文本多分类案例 目录 基于tensorflow和Keras框架(特征编码+Tokenizer处理文本数据+保存模型)针对UC
日期 2023-06-12 10:48:40ML之NB:基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测
ML之NB:基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测 目录 基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测 设计思路 输出结果
日期 2023-06-12 10:48:40ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测、评估
ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测、评估 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 class TfidfVectorizer F
日期 2023-06-12 10:48:40ML之NB:基于NB朴素贝叶斯算法训练20类新闻文本数据集进行多分类预测
ML之NB:基于NB朴素贝叶斯算法训练20类新闻文本数据集进行多分类预测 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 vec = CountVectorizer() X_train = vec.fit_transform(X_t
日期 2023-06-12 10:48:40ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估
ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 https://www.
日期 2023-06-12 10:48:40【NLP-新闻文本分类】处理新闻文本分类所有开源解决方案汇总
目录 引言1 textCNN or Bert1.1 简介1.2 textcnn1.3 bert 2 Bert2.1 简介2.2 文件说明 3 LSTM or CNN or Transformer3.
日期 2023-06-12 10:48:40【NLP-新闻文本分类】3 Bert模型的对抗训练
目录 1 引言2 步骤2.1 数据集预处理2.2 用预处理后的数据集训练Bert的语料库2.3 加载语料库和字典后用原始数据训练Bert模型2.4 模型测试 1 引言 (1
日期 2023-06-12 10:48:40【NLP-新闻文本分类】2特征工程
赛题 来自阿里天池的新闻文本分类赛题。具体赛题和前序步骤数据分析查看另一篇博客。 【NLP-新闻文本分类】1 数据分析和探索 1 引言 特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据
日期 2023-06-12 10:48:40【NLP-新闻文本分类】1 数据分析和探索
目录 赛题介绍1 导入工具包2 读取数据3 数据集样例查看4 查看数据类型和数据大小5 查看缺失值6 观察数据分布6.1 查看Label分布6.2 查看句子长度分布6.3 句子中字符数量分布 7 总结分析
日期 2023-06-12 10:48:40基于朴素贝叶斯算法对新闻文本进行分类
目录 朴素贝叶斯算法编辑 朴素贝叶斯的三种方式 实战——对新闻文本进行文本分类 朴素贝叶斯算法 贝叶斯定理 贝叶斯定理(Bayes Theorem)也称贝叶斯公式,是关于随机 事件的条件概率的定理 定理内容: 如果随机事件A1 ,A2 ,...,An构成样本空间的一个划
日期 2023-06-12 10:48:40