面向机器学习的自然语言标注3.3 语言模型
3.3 语言模型
n元语法的好处是什么呢?多年来自然语言处理已经利用n元语法开发了预测序列行为的统计语言模型(language model)。序列行为涉及在包含多个X的序列中识别下一个X。例如,语音识别、机器翻译等。在给定前一个元素的前提下语言模型预测序列中的下一个元素。
让我们更仔细地看看它是如何工作的,以及如何使用前几章讨论的工具。假设有一个单词序列,w1,w2,?wn。预测序列中的任意“下一个单词”wi可以表示为下面的概率函数:
等价于:
请注意,这里涉及两个联合概率分布的计算。我们假定用语料库中的单词序列的频率来估计它的概率。即,
P(w1,?wi-1) = Count(w1,?wi-1)
P(w1,?wi) = Count(w1,?wi)
以下比率称为相对频率(relative frequency):
注意: 正如我们所看到的,n元语法例子中的联合概率可以使用序列行为的链式法则表示为条件概率(conditional probability),如下:
它进一步可表示为:
原则上,如果计算整个词序列的联合概率,即便我们能够估计构造预测模型所需要的概率,我们也没有机会拥有足够的数据来进行这个工作。也就是说,有些词序列可能从未在我们的语料库中出现过,但我们仍想能够预测其中所包含的这些元素的相关行为。为解决这个问题,我们可以对序列中元素的贡献做一些简化的假设。即,如果我们近似地认为序列中某个单词的行为只与它前面的一个单词相关,则我们可以将n元概率
P(wi | w1 )
简化为二元概率:
这就是马尔科夫假设(Markov assumption),使用它,我们就能得到语料库中二元子串的一些合理统计结果。使用更早之前提到的相对频率的概念,可以估计二元概率。如前所述,我们用语料库中二元子串的出现次数除以语料库中其前缀(这里指的是一个单词)出现的次数:
这个过程就是最大似然估计(Maximum Likelihood Estimation,MLE),它提供了用于创建语言模型的一个相当直接的方式。第7章将继续讨论该话题。
总结
本章介绍了分析语料库语言学内容的工具以及执行统计分析需要的各种技术和工具。具体地,我们讨论了如下内容:
语料库分析包含统计和概率工具,执行推理统计时,这些工具可对语料库和信息进行数据分析。这对你进行语料库标注以及在语料库上训练机器学习算法而言是必不可少的信息。
有必要区分语料库中单词的出现(词例)和单词本身(词型)。
语料库中词例的总数是语料库的大小。
语料库中词型的总数是词汇表的大小。
语料库中单词的排序/频率分布是根据单词的词例数给出的词语排序。
单词的频谱是具有给定频次的单词的个数。
齐普夫定律是一个幂次定律,它说明任何单词的频率与它的排序成反比。
对于许多自然语言处理应用,构造语料库中词语的n元子串是建立语言模型的第一步。
点互信息是对文本中的一个词与另一个词之间依赖关系的度量。它可以用来判断语料库中的二元子串是否是真正的搭配。
可以基于马尔科夫假设对预测序列行为的语言模型进行简化,即在预测一个单词时只关注其前面的一个单词。
相关文章
- 玩转内核链表Llist_Head,教你管理不同类型节点的实现
- 啃论文俱乐部——移植Speexdsp到OpenHarmony标准系统(四)
- 微软发布 Windows 11 KB5017328 累积更新(22000.978),修复多个 Bug
- 电脑技巧:微软出品效率神器PowerToys,太实用了,赶紧来看看吧!
- 啃论文俱乐部—移植Speexdsp到OpenHarmony标准系统(三)
- 微软承认 Windows 11 存在用户无法登录的 Bug,现已修复
- 因开发人员放假,微软推迟一天发布 Windows 11 Dev 25197 开发版(附更新内容)
- 一套通用的数据分析学习指南,入门必看!
- 微软警告:夏令时可能引发 Windows 7-Windows 11 出现问题
- 面试官:讲讲SpringAOP的底层代理模式
- 啃论文俱乐部—移植speexdsp到OpenHarmony标准系统(二)
- 微软 Windows 11/10 免费工具集 PowerToys 0.62 发布,增加屏幕标尺、OCR 识别文字等工具
- 面试突击:什么是跨域问题?如何解决?
- Windows 11 22H2功能更新正在为即将到来的发布日做准备
- 啃论文俱乐部—移植Speexdsp到OpenHarmony标准系统(一)
- Windows 11"Moment 1"、"Moment 2"是包含新功能的下一批重大更新
- 面试突击:Lock、TryLock、LockInterruptibly有什么区别?
- 微软发布Windows 11Beta 22621.590、22622.590 (KB5017846) 更新
- 基于 RuoYi-Vue 做一个健身会员管理系统,你学会了吗?
- 微软为Windows Server添加虚拟核心许可