zl程序教程

您现在的位置是:首页 >  后端

当前栏目

NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】

静态 模型 动态 发展 主题 NLP 向量 TF
2023-09-27 14:20:38 时间

NLP-词向量-发展:

  • 词袋模型【onehot、tf-idf】
  • 主题模型【LSA、LDA】
  • 基于词向量的静态表征【Word2vec、GloVe、FastText】
  • 基于词向量的动态表征【Bert】

一、词袋模型(Bag-Of-Words)

1、One-Hot

词向量的维数为整个词汇表的长度,对于每个词,将其对应词汇表中的位置置为1,其余维度都置为0。

缺点是:

  • 维度非常高,编码过于稀疏,易出现维数灾难问题;
  • 不能体现词与词之间的相似性,每个词都是孤立的,泛化能力差。

在这里插入图片描述

2、tf-idf

在这里插入图片描述

二、主题模型

缺点:在词对推理任务上表现特别差;可解释性差;