您现在的位置是：首页 > 其他

当前栏目

百度开源其NLP主题模型工具包，文本分类等场景可直接使用L——LDA进行主题选择本质就是降维，然后用于推荐或者分类

百度开源进行模型选择推荐分类场景

2023-09-14 09:11:55 时间

2017年7月4日，百度开源了一款主题模型项目，名曰：Familia。

InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访，在本文中，他将为我们解析Familia项目的技术细节。

什么是Familia

Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型：Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。

Familia支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。考虑到主题模型训练成本较高以及开源主题模型资源有限的现状，我们会陆续开放基于工业级语料训练的多个垂直领域的主题模型，以及这些模型在工业界的典型应用方式，助力主题模型技术的科研和落地。

据姜迪介绍，Familia主题模型项目是百度研发的贝叶斯网技术的一个重要组成部分，已经支持了百度多个产品，包括搜索、资讯流、贴吧等等。

基于主题模型的文档特征表示可以分为两类，如图1所示：一类是经过主题模型降维，得到文档在主题上的多项分布，LDA、SentenceLDA等模型支持这一类的文档特征表示；另一类是联合使用主题向量和文档主题分布，生成的文档向量表示，TWE等融合了词向量的主题模型可以支持这一类的文档特征表示。

分类

案例: 新闻质量分类

对于新闻APP，其通过各种来源获得到的新闻，质量通常良莠不齐。在表2中列出了一些低质新闻与优质新闻的标题的示例。

为了提升用户体验，通常会构建一个分类器来自动过滤低质量的新闻。可以人工设计一些传统特征：新闻来源站点、新闻内容长度、图片数量、新闻热度等等。除了这些人工特征，也可利用主题模型来计算每篇新闻的主题分布，作为附加特征与人工特征一起组成新特征集合(图2(a))。

使用人工标注7000篇新闻，新闻质量总共划分为3个档位，其中0档表示质量最差，2档表示质量最优。我们采用Gradient Boost Decision Tree (GBDT)，分别利用人工特征和主题扩充后的特征集合在5000篇新闻上进行训练，并在另外2000篇标注新闻数据上做测试。图2(b)展示了使用不同特征上的实验结果，在测试数据上的分类准确度。从这些实验结果可以看出，主题分布作为特征扩充可以有效提升分类器的效果。

聚类

案例: 新闻聚类

文档的主题分布可看做是包含语义信息的一个降维过程，这些低维特征可以用来对文档进行聚类。表3中展示了基于主题分布和K-Means进行聚类的部分结果。从表中可以看出，基于新闻的主题分布，可以很好的完成聚类任务，在簇1中显示的是与房子装修相关的新闻，簇2中则是聚集了与股票相关的新闻。

案例: 新闻个性化推荐

长文本-长文本的语义匹配可用于个性化推荐的任务中。在互联网应用中，当积累了用户大量的行为信息后，这些行为信息对应的文本内容可以组合成一篇抽象的“文档”，对该“文档”进行主题映射后获得的主题分布可以作为用户画像。例如，在新闻个性化推荐中，可以将用户近期阅读的新闻（或新闻标题）合并成一篇长“文档”，并将该“文档” 的主题分布作为表达用户阅读兴趣的用户画像。如图5所示，通过计算每篇实时新闻的主题分布与用户画像之间的Hellinger Distance，可作为向用户推送新闻的选择依据，达到新闻个性化推荐的效果。

摘自：http://www.infoq.com/cn/news/2017/07/Baidu-open-NLP-Toolkit

猜你喜欢

Python初识模块之正则表达式
探索Linux发展史中的分支（linux的分支）
CentOS7下实现终端输入中文设置详解
Linux查看端口状态：实现超级管理员功能（linux查看端口状态）
R_01
redis缓存设计以及经典问题分析
PHP实现简单的日历程序
Centos7更换yum镜像源
【愚公系列】2022年11月微信小程序-优购电商项目-商品收藏⻚⾯
Ubuntu 18.04 安装 PyCharm[通俗易懂]
聚焦消费物联网市场，Synaptics要用人机交互和语音技术抢占AI高地
Monocel3简介以及安装
缓存穿透
如何在 Ubuntu 和其他 Linux 发行版中启动、停止和重启服务
解决网页文字无法选中或复制的方法_复制不了的文字
MySQL下载和配置全攻略（mysql下载及配置）
JFreeChart 图表生成实例(饼图、柱状图、折线图、时序图)详解编程语言
html中的导航条制作「建议收藏」
快速入门Redis脚本开发（redis 脚本教程）

相关主题

iOS百度地图
百度AI
百度编辑器
百度轻应用
百度云我的库

zl程序教程

当前栏目

百度开源其NLP主题模型工具包，文本分类等场景可直接使用L——LDA进行主题选择本质就是降维，然后用于推荐或者分类

相关文章