《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理
2023-09-11 14:17:45 时间
本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.2节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。
2.2 文本清理一旦我们将各种数据源解析成了文本形式,接下来所要面临的挑战就是要使这些原生数据体现出它们的意义。文本清理就泛指针对文本所做的绝大部分清理、与相关数据源的依赖关系、性能的解析和外部噪声等。从这个意义上来说,这些工作和我们在第1章——自然语言处理简介中调用html_clean()对HTML文档进行清理的工作是一样的。当然还有其他情况,如果我们要解析PDF文件,可能就需要清理掉一些不必要的干扰字符,移除非ASCII 字符等。总之在继续下一步骤之前,我们需要做一些清理以获得一个可以被进一步处理的干净文本。而对于像XML这样的数据源,我们可能就只需要关注一些特定的树元素即可。对于数据库,我们则有各种可操作的分离器,而且有时我们也只需要关注一些特定的列。总而言之,对于所有致力于净化文本、清理掉文本周围所有可能干扰的工作,我们称之为文本清理。数据再加工(data munging)、文本清理与数据歧义这几个术语之间并没有清晰的界限,它们在类似的语境中可以相互交替使用。在接下来的几节中,我们将会具体讨论一些在任何NLP任务中都极为常见的预处理步骤。
机器学习实战 | 逻辑回归应用之“Kaggle房价预测” 基于kaggle网站所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格,数据的标签SalePrice是连续性数据,因此可以判定这是一个回归问题。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- Python中python-nmap模块的使用
- python之pip安装mysql-python失败
- 零基础教你快速入门Python怎么学python入门?python新手学习路线
- 超全Python学习路线图+14张思维导图,让python初学者不走弯路
- 【杂项】+股票信息获取(Java、Python)
- 【python】leetcode 141. 环形链表
- 《趣学Python编程》——2.3 使用变量
- 《像计算机科学家一样思考Python》——4.12 练习
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第1章 自然语言处理简介
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——1.2 先从Python开始吧
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第2章 文本的歧义及其清理
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.4 标识化处理
- 《Python机器学习——预测分析核心算法》——2.6 多类别分类问题:它属于哪种玻璃
- 图像处理:随机添加椒盐噪声和高斯噪声Python
- Python机器学习零基础理解朴素贝叶斯
- Python机器学习零基础理解PCA主成分分析
- Python 使用PyMySql 库 连接MySql数据库时 查询中文遇到的乱码问题(实测可行) python 连接 MySql 中文乱码 pymysql库
- 【Python】python扩展
- Python - 3.6 学习三
- Python opencv-python 简单测试