您现在的位置是：首页 > 后端

当前栏目

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2　文本清理

Python 机器应用学习构建文本清理 2.2

2023-09-11 14:17:45 时间

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章，第2.2节，作者：Nitin Hardeniya，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.2 文本清理

一旦我们将各种数据源解析成了文本形式，接下来所要面临的挑战就是要使这些原生数据体现出它们的意义。文本清理就泛指针对文本所做的绝大部分清理、与相关数据源的依赖关系、性能的解析和外部噪声等。从这个意义上来说，这些工作和我们在第1章——自然语言处理简介中调用html_clean()对HTML文档进行清理的工作是一样的。当然还有其他情况，如果我们要解析PDF文件，可能就需要清理掉一些不必要的干扰字符，移除非ASCII 字符等。总之在继续下一步骤之前，我们需要做一些清理以获得一个可以被进一步处理的干净文本。而对于像XML这样的数据源，我们可能就只需要关注一些特定的树元素即可。对于数据库，我们则有各种可操作的分离器，而且有时我们也只需要关注一些特定的列。总而言之，对于所有致力于净化文本、清理掉文本周围所有可能干扰的工作，我们称之为文本清理。数据再加工（data munging）、文本清理与数据歧义这几个术语之间并没有清晰的界限，它们在类似的语境中可以相互交替使用。在接下来的几节中，我们将会具体讨论一些在任何NLP任务中都极为常见的预处理步骤。

机器学习实战 | 逻辑回归应用之“Kaggle房价预测” 基于kaggle网站所提供的爱荷华州埃姆斯的住宅数据信息，预测每间房屋的销售价格，数据的标签SalePrice是连续性数据，因此可以判定这是一个回归问题。
异步社区异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区，也是国内领先的IT专业图书社区，致力于优质学习内容的出版和分享，实现了纸书电子书的同步上架，于2015年8月上线运营。公众号【异步图书】，每日赠送异步新书。

猜你喜欢

WWDC21 学习系列之 Session 周一节目表含视频播放
Java开发牛人十大必备网站
Spring Cloud ：Gateway 路由定义定位器 RouteDefinitionLocator （三）
GitHub页面基本知识
详解华为钱包
Word处理控件Aspose.Words功能演示：使用 Java 将 RTF 转换为 PDF
基于EDA技术的频率计系统设计
C++设计模式 ==> 工厂模式
【网站制作】一、基础知识入门
mount状态下表空间情报试验
【毕设Day5】
Java中高级面试题总览(一)
纹理图像分割
科学表明，读博对人的精神健康有很大影响（转）
服务端性能测试入门指南
二、小程序的框架周期
Android 打造完美的侧滑菜单/侧滑View控件
《C#零基础入门之百识百例》（七）算数运算符 -- 圆的面积
RPM快速打包[转载]
EF中使用SQL语句或存储过程
浩辰CAD云存储功能无法登陆网盘账号怎么办？
What does end=' ' exactly do?
SwiftUI iOS 精品工具条组件之 05 浮雕效果滚动工具条(教程含源码)
ansible服务部署与使用

相关主题

Python机器学习库
python if语句 5
python爬虫2

zl程序教程

当前栏目

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2　文本清理

相关文章

当前栏目

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理

相关文章

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2　文本清理