《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6 词形还原
2023-09-11 14:17:45 时间
本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.6节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。
2.6 词形还原词形还原(lemmatization)是一种更条理化的方法,它涵盖了词根所有的文法和变化形式。词形还原操作会利用上下文语境和词性来确定相关单词的变化形式,并运用不同的标准化规则,根据词性来获取相关的词根(也叫lemma)。
from nltk.stem import WordNetLemmatizer wlem = WordNetLemmatizer() wlem.lemmatize("ate") eat
在这里,WordNetLemmatizer使用了wordnet,它会针对某个单词去搜索wordnet这个语义字典。另外,它还用到了变形分析,以便直切词根并搜索到特殊的词形(即这个单词的相关变化)。因此在我们的例子中,通过ate这个变量是有可能会得到eat这个单词的,而这是词干提取操作无法做到的事情。
现在你能解释词干提取与词性还原之间的区别了吗?
现在你能为自己的母语设计一个Porter词干提取器(基于规则)了吗?
为什么对于中文这样的语言来说,词干提取器是很难实现的?
客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵ 如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】
机器学习建模高级用法!构建企业级AI建模流水线 ⛵ 机器学习建模高级用法!构建企业级AI建模流水线,不同环节有序地构建成工作流(pipeline)。本文以『客户流失』为例,讲解如何构建 SKLearn 流水线。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- python redis之连接池的原理
- python读写配置文件使用总结与避坑指南
- 【Python】python 多线程两种实现方式
- 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)
- python日期操作
- python课件-淘宝-目录.txt
- python: easyocr的安装和使用(easyocr 1.6.2 / Python 3.7.15 )
- AI之DS/CV/NLP:Python与人工智能相关的库/框架(机器学习常用库、数据科学常用库、深度学习常用库、计算机视觉常用库、自然语言处理常用库)的简介、案例应用之详细攻略
- Python编程语言学习:python中浅复制/深复制(或浅拷贝/深拷贝)的简介、案例应用注意事项之详细攻略
- Python:pmml格式文件的简介、安装、使用方法(利用python将机器学习模型转为Java常用的pmml格式文件)之详细攻略
- Python编程语言学习:python的列表的特殊应用之一行命令实现if判断中的两类判断
- 统计学习、机器学习以及python的学习顺序是什么
- 【python代码】:能在手机上敲 Python 代码几款App
- 〖Python零基础入门篇⑥〗- Python初学者需要牢记的几种编码规范
- 〖Python WEB 自动化测试实战篇③〗- python-selenium环境配置搭建
- 一文读懂 Python 装饰器
- 7个绝佳的学习 Python 编程的开源库
- 机器学习模型可解释性的6种Python工具包,总有一款适合你!
- 【阶段三】Python机器学习10篇:机器学习项目实战:K近邻算法的基本原理、计算步骤与KNN(K近邻)分类模型
- 【华为机试真题 Python实现】字符串处理
- Python爬虫:PyExecJS在python中运行javascript代码
- 数学之路-python计算实战(16)-机器视觉-滤波去噪(邻域平均法滤波)
- Python标准库:内置函数callable(object)
- 【Leetcode刷题Python】23. 合并K个升序链表
- 详解alternatives命令(本例以Python版本切换为例)
- 【异常】前端ERR! stack Error: Can‘t find Python executable “python“, you can set the PYTHON env variable.
- 【Python实战】 ---- python 自带的 venv 虚拟环境更新 pip 失败