您现在的位置是：首页 > 后端

当前栏目

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6　词形还原

Python 机器应用学习构建还原基础教程 2.6

2023-09-11 14:17:45 时间

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章，第2.6节，作者：Nitin Hardeniya，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.6 词形还原

词形还原（lemmatization）是一种更条理化的方法，它涵盖了词根所有的文法和变化形式。词形还原操作会利用上下文语境和词性来确定相关单词的变化形式，并运用不同的标准化规则，根据词性来获取相关的词根（也叫lemma）。

 from nltk.stem import WordNetLemmatizer

 wlem = WordNetLemmatizer() 

 wlem.lemmatize("ate") 

eat

在这里，WordNetLemmatizer使用了wordnet，它会针对某个单词去搜索wordnet这个语义字典。另外，它还用到了变形分析，以便直切词根并搜索到特殊的词形（即这个单词的相关变化）。因此在我们的例子中，通过ate这个变量是有可能会得到eat这个单词的，而这是词干提取操作无法做到的事情。

现在你能解释词干提取与词性还原之间的区别了吗？
现在你能为自己的母语设计一个Porter词干提取器（基于规则）了吗？
为什么对于中文这样的语言来说，词干提取器是很难实现的？

客户流失？来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵ 如何在海量用户中精准预测哪些客户即将流失？本文结合音乐流媒体平台 Sparkify 数据，详细讲解一个客户流失建模预测案例的全流程：探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】
机器学习建模高级用法！构建企业级AI建模流水线 ⛵ 机器学习建模高级用法！构建企业级AI建模流水线，不同环节有序地构建成工作流（pipeline）。本文以『客户流失』为例，讲解如何构建 SKLearn 流水线。
异步社区异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区，也是国内领先的IT专业图书社区，致力于优质学习内容的出版和分享，实现了纸书电子书的同步上架，于2015年8月上线运营。公众号【异步图书】，每日赠送异步新书。

猜你喜欢

C语言入门之程序的灵魂（算法）及数据类型
Spring Cloud Alibaba-Nacos-创建服务消费者（Feign）
4k动漫壁纸20
（剑指Offer）面试题60：把二叉树打印成多行
ByteArrayOutputStream的用法
【鲁棒优化】基于联合聚类和定价的鲁棒功率控制方法（Matlab代码实现）
【学习总结】SQL的学习-1-初识数据库与sql
数据结构和算法-排序算法-插入排序
HTML5 & CSS3 内容收集(1)
FPGA-SDRAM设计学习（二）具体操作详细介绍（文档阅读）
Abstract Window Toolkit（AWT）是一个图形过程库
切比雪夫不等式——用于异常检测，基本假设：“几乎所有”值都会“接近”平均，如果偏差大就认为异常
个人网站地址
ESLint: Expected space or tab after ‘//‘ in comment.(spaced-comment)
scala本地调试函数
Knockout应用开发指南（完整版）目录索引
MySQL group by
注释web.xml
LeetCode 1317. 将整数转换为两个无零整数的和
开源流媒体云视频平台EasyDarwin中EasyCMS服务是如何进行命令转发和消息路由的

相关主题

Python-Python入门
Python机器学习算法

zl程序教程

当前栏目

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6　词形还原

相关文章

当前栏目

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6 词形还原

相关文章

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6　词形还原