《NLTK基础教程——用NLTK和Python库构建机器学习应用》——导读
NLTK基础教程——用NLTK和Python库构建机器学习应用
这是一本介绍NLTK库,以及如何将该库与其他Python库搭配运用的书。NLTK是当前自然语言处理(NLP)社区中最为流行、使用最为广泛的库之一。NLTK的设计充分体现了简单的魅力。也就是说,对于大多数复杂的NLP任务,它都可以用寥寥几行代码来实现。
本书的前半部分从介绍Python和NLP开始。在这部分内容中,你将会学到一些通用的预处理技术,例如标识化处理(tokenization)、词干提取(stemming)、停用词(stop word)去除;一些专属于NPL领域的预处理技术等,如词性标注(part-of-speech tagging);以及大多数文本相关的NLP任务都会涉及的命名实体识别(Named-entity recognition,简称NER)等技术。然后,我们会逐步将焦点转到更为复杂的NLP任务上,例如语法解析(parsing)以及其他NLP应用。
本书的后半部分则将更侧重于介绍如何构建一些NLP应用,如对于文本分类,可以用NLTK搭配scikit-learn库来进行。我们还会讨论一些其他的Python库,你应该了解一下这些与文本挖掘或自然语言处理任务相关的库。另外,也会带你看看如何从网页和社交媒体中采集数据,以及如何用NLTK进行大规模的文本处理。
第1章 自然语言处理简介
1.1 为什么要学习NLP
1.2 先从Python开始吧
1.3 向NLTK迈进
1.4 练习
1.5 小结
第2章 文本的歧义及其清理
2.1 何谓文本歧义
2.2 文本清理
2.3 语句分离器
2.4 标识化处理
2.5 词干提取
2.6 词形还原
2.7 停用词移除
2.8 罕见词移除
2.9 拼写纠错
2.10 练习
2.11 小结
第3章 词性标注
第4章 文本结构解析
第5章 NLP应用
第6章 文本分类
第7章 Web爬虫
第8章 NLTK与其他Python库的搭配运用
第9章 Python中的社交媒体挖掘
第10章 大规模文本挖掘
Python 的 __name__ 变量及其应用 __name__ 是 Python 中的一个特殊变量,它代表当前模块的名字。 当一个 Python 文件被直接运行的时候,__name__ 的值会被设置为 __main__。 当代码被导入到其他模块中运行时,__name__ 的值会被设置为模块名称。
Python多线程爬虫编程中queue.Queue和queue.SimpleQueue的区别和应用 在Python中,queue模块提供了多种队列类,用于在多线程编程中安全地交换信息。其中,queue.Queue 和queue.SimpleQueue 是两个常用的先进先出(FIFO)的队列类,它们有以下区别和优缺点: queue.Queue 是一个更复杂的队列类实现涉及到多个锁和条件变量,因此可能会影响性能和内存效率。 SimpleQueue 是一个更简单的队列类它只提供了put()和get()两个方法,并且不支持maxsize参数
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- python的*args和**kwargs基础用法
- 算法Python numpy作用(numpy.diff、numpy.argwhere)
- Python怎么就火起来了?学会python可以做的兼职
- 学python能做什么兼职-初学Python到月入过万最快的兼职途径(纯干货)
- 零基础自学Python需要多长时间从入门到精通?学python能兼职挣钱吗?怎么挣钱?
- Python分享:python爬虫可以用来做什么?
- Python 中格式化字符串及 format 函数用法
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.5 词干提取
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6 词形还原
- 《Python机器学习——预测分析核心算法》——第1章 关于预测的两类核心算法
- 《Python机器学习——预测分析核心算法》——2.4 基于因素变量的实数值预测:鲍鱼的年龄
- 《Python机器学习——预测分析核心算法》——2.5 用实数值属性预测实数值目标:评估红酒口感
- python学习之基于Python的人脸识别技术学习
- python学习之OpenCV-Python模块的部分应用示例(生成素描图和动漫图)
- Python机器学习零基础理解朴素贝叶斯
- Python机器学习零基础理解决策树分析
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.7 停用词移除
- Python 基础 之 python 线程知识点整理,并实现一个简单多线程 udp 聊天应用
- 【Python】python 库分类大全
- Python:不同进制的转换整理
- Python机器学习:使用Pandas进行探索性数据分析 Ⅱ