Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
2023-09-14 09:04:45 时间
Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
目录
NLP数据集特点
文本相对容易收集和存储,但属性个数可能要比基因数据中的属性个数更多。对于一些自然语言处理问题,属性是词,每一行对应一篇文档。属性矩阵中的每一个元素表示词在文档中的出现次数。列的数目对应于文档的词汇量大小。根据预处理情况(如移除常见的词,如a、and 以及of),最后的词汇量可能会从几千到数万。如果考虑n-gram,文本的属性矩阵会更加庞大。n-gram 是相邻的2 个、3 个或者4 个词,这些词的位置足够紧密甚至可以构成短语。在这种情况下,线性模型相对于复杂的集成方法,可能会产生相同甚至更好的性能。
常见的NLP数据集
更新……
对应案例下数据集可向博主索取!
1、生物数据集以及自然语言处理数据集
一般是包含大量列的数据集,这些数据集虽然有很多样本,但往往也不足以训练好一个复杂模型。
1、生物数据集:在生物学里,基因数据集很容易就包含10,000 ~ 50,000 个属性。即使通过成百上千次的单个实验(数据的行),基因数据也不足以训练一个复杂的集成模型。线性模型可以给出等价甚至更好的性能。
(1)、基因数据很昂贵。一次实验(数据行)就可能花费$5,000 美元,整个数据集花费可能会达到5,000 万美元。
常见的使用案例
NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档
NLP之WE之Skip-Gram:基于TF利用Skip-Gram模型实现词嵌入并进行可视化、过程全记录
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
相关文章
- 15天玩转redis —— 第六篇 有序集合类型
- 关于laravel5.4.12新增集合操作when方法详解
- java IO之 序列流 集合对象Properties 打印流 流对象
- 集合框架之内容
- java集合框架01——总体框架一览
- redis 简单整理——redis 的有序集合基本结构和命令[六]
- Scala集合:List修改及删除数据
- Scala集合体系:可变集合和不可变集合
- 关于Java集合最被关注的10 个问题
- DL:关于深度学习常用数据集中训练好的权重文件(Deeplab v3、MobileNet、InceptionV3、VGG系列、ResNet、Mask R-CNN )下载地址集合(持续更新)
- Dataset:机器学习中常用数据集下载链接集合之详细攻略
- Py之seaborn:数据可视化seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的组合图/矩阵图可视化代码实现集合之详细攻略
- DL之NIN:Network in Network算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
- Dataset:数据集集合(综合性)——机器学习、深度学习算法中常用数据集大集合(建议收藏,持续更新)
- 【Groovy】map 集合 ( 根据 Key 获取 map 集合中对应的值 | map.Key 方式 | map.‘Key’ 方式 | map[‘Key’] 方式 | 代码示例 )
- 002-Python3-基础语法-赋值、显示类型、数据类型[数值、字符串、列表、元祖、集合、字典]
- anndata scanpy拆分成多个数据集python Linux 多个单细胞合并 切分数据集合 切割
- 集合划分问题(转载)
- python基础===如何在列表,字典,集合中根据条件筛选数据
- yll duqiang 制作geo三个独立数据集IPF基因集合 用于分析某个基因是否与生存期相关THBS2 mmp7