收藏 | 自然语言处理(NLP)数据集汇总(附下载链接)
2023-09-14 09:12:44 时间
🎄🎄【自然语言处理NLP】简介 🎄🎄
自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈
1.Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
2.博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
3.亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)
https://www.kaggle.com/snap/amazon-fine-food-reviews
4.亚马逊评论:斯坦福收集了3500万条亚马逊评论。(11GB)
https://snap.stanford.edu/data/web-Amazon.html
5.ArXiv上:所有收录论文全文(270GB)+源文件(190GB)
http://arxiv.org/help/bulk_data_s3
6.ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB)
https://www.kaggle.com/c/asap-aes/data
7.ASAP简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB)
https://www.kaggle.com/c/asap-sas/data
8.治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB)
https://www.crowdflower.com/data-for-everyone/
9.CLiPS文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究。(数据集需要申请获得)
http://www.clips.uantwerpen.be/datasets/csi-corpus
10.ClueWeb09 FACC:带有Freebase注释的ClueWeb09(72GB)
http://lemurproject.org/clueweb09/FACC1/
11.ClueWeb11 FACC:带有Freebase注释的ClueWeb11(92GB)
http://lemurproject.org/clueweb12/FACC1/
12.常见爬虫语料库:由超过50亿个网页(541TB)爬虫数据构成。
http://aws.amazon.com/de/datasets/common-crawl-corpus/
13.康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对话集合:617部电影,10,292对电影人物之间的220,579次会话交流。(9.5MB)
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
14.企业信息:分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)
http://aws.amazon.com/de/datasets/common-crawl-corpus/
15.Crosswikis:关联英语短语与维基百科文章的数据库。(11GB)
http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
16.一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB)
http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
17.Del.icio.us:delicious.com上的125万个书签。
http://arvindn.livejournal.com/116137.html
18.经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从1951年到2014年。(12MB)
https://www.crowdflower.com/data-for-everyone/
19.安然公司电子邮件数据:包含1,227,255封电子邮件,其中493,384个附件覆盖151位管理者。(210GB)
http://aws.amazon.com/de/datasets/enron-email-data/
20.事件注册:免费工具,可以实时访问全球100,000个媒体的新闻文章。有API接口。(查询工具)
http://eventregistry.org/
关于论文投稿&选刊可关注并留言博主的CSDN/QQ
>>>一起交流!互相学习!共同进步!<<<
相关文章
- 【工具】Windows应急响应信息采集工具,附下载链接。
- Vivado® ML Editions 2022.2 最新更新(附下载链接)
- 使用IDM从Google 云端硬盘链接上下载超大文件
- 软硬件融合:超异构计算革命(第七版,附下载链接)
- 数据库SQL Server2012下载链接与安装教程
- 链接提交-js代码推送进化版详解程序员
- Java连接Mysql:探索数据库之路。(java链接mysql)
- ABAP–关于增强的链接收集详解编程语言
- 什么是垃圾链接?
- MySQL内链接:简单手段构建复杂查询(mysql内链接)
- 数据库如何在Linux系统中连接DB2数据库(linux链接db2)
- 在 Linux 中怎样移除(删除)符号链接
- MySQL官方下载链接:安装最新数据库服务(mysql官方下载)
- 深入探究:如何连接MSSQL数据库(如何链接mssql数据库)
- 本地链接的虚拟机Redis应用指南(本地链接虚拟机redis)
- MySQL与游戏机无缝链接,下载游戏大型数据库(MYSQL下载游戏机)
- 如何下载MySQL获取最新版本的MySQL下载链接(mysql下载到哪里)
- Redis提供便捷链接免费下载福利(redis链接工具下载)
- Oracle三表连接分析精准多表结果查询(oracle三表链接)
- 阿里云盘开始测试链接转存(即离线下载)功能 支持HTTP和磁力链接
- JSP点击链接后下载文件(相当于右键另存)功能
- 用文字链接代替表单提交的按钮
- 使用php实现下载生成某链接快捷方式的解决方法
- SQLServer创建链接服务器的存储过程示例分享