《 短文本数据理解》——第1章 短文本理解及其应用 1.1 短文本理解
本节书摘来自华章出版社《短文本数据理解(1)》一书中的第1章,第1.1节,作者王仲远,更多章节内容可以访问云栖社区“华章计算机”公众号查看
短文本广泛地存在于互联网的各个角落,如搜索查询、广告关键字、锚文本、标签、网页标题、在线问题、微博等,都属于短文本。一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解。此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析。正是由于这些特性,使得让机器正确理解短文本十分困难。然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很多潜在应用,如网页搜索、在线广告、智能问答等。那么,如何才能够破解其中的挑战呢?
我们不妨首先跳出机器的范畴,看看人类是如何理解短文本的。对于人类而言,理解这些短文本是十分简单的。即使是一个10岁左右的儿童,当他们看到短文本(如搜索查询)时,都可以正确地理解这些短文本的含义。究其原因,是由于人类具有“思维”,能够积累知识并做出推断。例如,给出两个查询语句“band for wedding”和“wedding band”,人类可以清楚地判断前者指的是一项“婚礼乐队服务”,而后者是“结婚戒指”。而这种知识的积累,是人们通过不断学习而获得的。
为了使机器也具有类似的能力,先前的研究往往也会构造出一些知识库系统,如Freebase、Yago等为机器“装备”知识。这些知识库大多包含大量实体以及与之相关的事实。以搜索引擎或问答系统为例,基于这些事实,机器可以通过查询的方式获取输入问题的答案。然而,如图11所示,在机器回答问题前,首先需要解决的是“理解”问题,这也是这一过程中的最大挑战。
通过深入研究,我们发现理解短文本所需要的知识与回答短文本所需要的知识并不相同。例如,针对短文本“世界上第三大瀑布”,10岁的儿童可以正确理解其含义,但是却不一定能够正确回答这个问题。这是因为,理解短文本更需要的是常识性知识(注重广度),而回答短文本更需要的是专业性知识(注重深度)。因此,传统的知识库系统并不能很好地解决短文本理解问题。
为了克服机器理解短文本的障碍,先前基于短文本的应用常通过枚举和关键词匹配的方式避免“理解”这一任务。以自动问答系统为例,可事先构建关于问题和答案匹配的列表,这样在线查询时只需对列表中的条目进行匹配即可。近年来随着自然语言处理技术的发展,主流的搜索引擎正逐渐从基于关键词的搜索向文本理解过渡。例如,给出“apple ipad”这个短文本,机器需要明白“apple”所指为品牌名而不是水果。
为了实现自动化的短文本理解,许多相关工作[54,153,172]证明,这一过程相当依赖额外的知识。这些知识可以帮助机器充分挖掘短文本中词与词之间的联系,如语义相关性。例如,在英文查询“premiere Lincoln”中,“premiere”是一个重要的信息,表明“Lincoln”在这里指的是movie(电影);同样,在“watch harry potter”中,正因为“watch” (观看)的出现,“harry potter”的含义可被判定为movie(电影)或DVD,而不是book(图书)。但是,这些关于词汇的知识(例如“watch”的对象通常是movie)并没有在短文本中明确表示出来,因而需要通过额外的知识源获取。图12展示了所有短文本理解方法在知识源属性和粒度的二维坐标轴中对应的位置。这些方法将在下一节逐一讨论。
短文速读,这将是一个系列文章。自己写了很多文章,也看了很多文章。发现很多都是收藏不看系列。当然有时间的时候,的确会把收藏的文章找出来好好的学习一番。
8月3日云栖精选夜读:LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型 本文提出了基于词汇语义特征的跳跃卷积模型LSF-SCNN,通过引入三种优化策略:词汇语义特征LSF、跳跃卷积SC和K-Max均值采样KMA分别在词语、短语、句子粒度抽取更加丰富的语义特征,从而更好的在向量空间构建短文本语义表达模型,并广泛的适用于问答系统QA、释义识别PI和文本蕴含TE等计算成对儿出现的短文本的相似度的任务中。
《短文本数据理解(1)》一导读 为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。
《 短文本数据理解》——2.5小结 本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.5节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.5小结 本章提出一个从多数据源提取属性并通过概率为属性打分的算法框架。
相关文章
- 性能优化与测试:系统监控、应用监控的思路
- python开发应用-本地数据获取方法
- 用snmp4j开发网管应用(三) -- 简单框架
- 基于 K8s 做应用发布的工具那么多, 阿里为啥选择灰姑娘般的 Tekton ?
- 大数据是开启环统数据应用的“金钥匙”
- 大数据与应用统计学的区别与联系
- 大数据与应用统计学的区别与联系
- 中小企业大数据应用之道:思维在于借力
- 重新整理 .net core 实践篇————配置应用[一]
- asp .net core 单页应用
- dubbo源码分析(二):超时原理以及应用场景
- 一个真实的 SAP 标准 UI5 应用的扩展开发项目(Extension Project)分享 - UI5 界面上新增订单创建者字段
- COMMIT WORK关键字在CRM content management应用里的使用场景
- 大数据研究常用软件工具与应用场景
- Atitit it计算机应用体系图 大数据 爬虫 非结构数据 nosql redis mongodb 分布式存储 es搜索 可视化 多媒体与office 19.1. 14.3 计
- VB.net:VB.net编程语言学习之操作符(变量/常量/数据类型/声明)&逻辑控制语句(条件判断/循环语句)的简介、案例应用之详细攻略
- ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用
- DataScience:数据处理技术之针对时间序列数据衍变—构造时间滑动窗口数据的简介、代码实现、案例应用之详细攻略
- Dataset之AllstateClaimsSeverity:AllstateClaimsSeverity数据集(Kaggle2016竞赛)的简介、下载、案例应用之详细攻略
- Ansible初级应用
- 大型网站应用之海量数据和高并发解决方案总结一二 【转载】
- 完整性度量架构(IMA)介绍与分析——当应用程序运行、动态链接库加载、内核模块加载时,将用到的代码和关键数据(如配置文件和结构化数据)做一次hash比较的感觉
- 大数据Hadoop之——Kafka Streams原理介绍与简单应用示例
- RFSoC应用笔记 - RF数据转换器 -21- API使用指南之配置ADC相关工作状态
- RFSoC应用笔记 - RF数据转换器 -03- RFSoC关键配置之RF-ADC内部解析(一)
- Qt数据库应用2-数据导出到xls
- MES系统的应用价值