数仓工具—Hive实战之UDF分词(1)
工具 实战 hive 数仓 分词 UDF
2023-09-11 14:15:37 时间
UDF 分词
分词
这个是一个比较常见的场景,例如公司的产品有每天都会产生大量的弹幕或者评论,这个时候我们可能会想去分析一下大家最关心的热点话题是什么,或者是我们会分析最近一段时间的网络趋势是什么,但是这里有一个问题就是你的词库建设的问题,因为你使用通用的词库可能不能达到很好的分词效果,尤其有很多网络流行用语它是不在词库里的,还有一个就是停用词的问题了,因为很多时候停用词是没有意义的,所以这里我们需要将其过滤,而过滤的方式就是通过停用词词表进行过滤
这个时候我们的解决方案主要有两种,一种是使用第三方提供的一些词库,还有一种是自建词库,然后有专人去维护,这个也是比较常见的一种情况
最后一个就是我们使用的分词工具,因为目前主流的分词器很多,选择不同的分词工具可能对我们的分词结果有很多影响
分词工具
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471)
IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中设置你的sqlite3词典的位置: ik_analysis_db_path: /opt/ik/dictionary.db
相关文章
- [转载]JDK自带VM分析工具jps,jstat,jmap,jconsole
- Walle 免费开源的 WEB 代码部署工具
- 安全工具库-免费(开源)
- linux(centos8):安装Jenkins持续集成工具(java 14 / jenkins 2.257)
- 数据库恢复工具实战教程
- ML之FE:基于BigMartSales数据集利用Featuretools工具(1个dataframe表结构切为2个Entity表结构)实现自动特征工程之详细攻略
- 【项目实战】使用DevOps工具链SonarQube实现静态代码扫描,并且导出相应的报告
- PHP面试题:PHP加速模式/扩展? PHP调试模式/工具?
- 【阶段二】Python数据分析Pandas工具使用09篇:探索性数据分析:数据的描述:数据的相关关系与数据的波动趋势
- Flutter实战之GetX工具类封装-GetUtils
- 【Android 逆向】Android 进程注入工具开发 ( 注入代码分析 | 远程调用 目标进程中 libc.so 动态库中的 mmap 函数 一 | mmap 函数简介 )
- 【云原生之Docker实战】使用docker部署Homebox内网测速工具
- 【云原生之Docker实战】使用docker部署kooteam在线团队协作工具
- 【云原生之Docker实战】使用Docker部署jenkins持续集成工具
- 【云原生之Docker实战】使用Docker部署Trilium个人笔记工具
- 【云原生之Docker实战】使用Docker部署excalidraw白板绘图工具
- 【云原生之Docker实战】使用docker部署PicUploader图床工具
- 【云原生之kubernetes实战】Kompose工具的安装使用
- 不用任何工具重装Win7系统
- 测试必备工具 —— Postman实战教程
- 轻量级压测工具Apache Bench实战
- wsexplorer——windows下的抓包工具 可以直接抓进程对应的网络流量
- Firefoo:Firebase Cloud Firestore——GUI工具
- 【项目实战】使用Java Keytool工具生成的CSR给第三方云平台签名
- python工具方法 4 依据随机种子将数据划分为训练集、测试集、验证集
- 【python 实战】---- 批量将xlxs文件中的base64转换成png图片工具开发
- 四、Fiddler抓包工具 — Fiddler页面布局之工具栏