NLP学习笔记
2023-09-11 14:17:47 时间
NLPL学习笔记
gensim-word2vec
训练
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import multiprocessing
def create_wordVectors(sentences, embedding_size = 128, window = 5, min_count = 5, word2vec_path = None):
w2vModel = Word2Vec(sentences, size=embedding_size, window=window, min_count=min_count,workers=multiprocessing.cpu_count())
w2vModel.save(word2vec_path)
载入
def load_wordVectors(word2vec_path):
w2vModel = Word2Vec.load(word2vec_path)
return w2vModel
映射
def embedding_lookup(w2vModel, sentences):
all_vectors = []
embeddingDim = w2vModel.vector_size
embeddingUnknown = [0 for i in range(embeddingDim)]
for sentence in sentences:
this_vector = []
for word in sentence:
if word in w2vModel.wv.vocab:
v=w2vModel[word]
this_vector.append(v)
else:
this_vector.append(embeddingUnknown)
all_vectors.append(this_vector)
return all_vectors
获得单词下标和词向量
w2vModel = Word2Vec.load(word2vec_path)
word = '你'
index = w2vModel.wv.vocab[word].index # 获得单词word的下标
word2= w2vModel.wv.index2word[index] # 根据index,获得对应的word
vector1 = w2vModel.wv.vectors[index] # 由下标获得词向量
vector2 = w2vModel[word] # 由word直接获得词向量
相关文章
- [原创]W2k Driving 学习笔记(二)使用GCC创建 Windows NT 下的内核DLL
- rsync 笔记之 list
- UFLDL 教程学习笔记(三)
- eclipse 代码上传github 笔记
- 《Head First Servlet JSP》学习笔记
- 《C#高级编程》学习笔记------C#中的事件和委托
- java学习笔记7--抽象类与抽象方法
- Angular开发小笔记
- mysql--SQL编程(关于mysql中的日期) 学习笔记2
- 《从零开始学Swift》学习笔记(Day 23)——尾随闭包
- 笔记14:Docker 部署Python项目
- 老司机的 redis 数据迁移笔记
- RHCE 学习笔记(6)权限管理
- Opencv学习笔记 高动态范围 (HDR) 成像
- 机器学习笔记 - 使用SMOTE和Near Miss算法处理不平衡数据
- 机器学习笔记 - tensorflow卷积和池化的可视化
- AngularJS学习笔记
- weka学习入门笔记
- Angular CLI builder 学习笔记
- Javascript 学习 笔记四
- React学习笔记(一)
- AI公开课之NLP:19.04.04李航—字节跳动AILab总监《深度学习与自然语言处理:评析与展望》课堂笔记以及个人感悟
- 世界顶级整理!137页Python学习笔记,全面总结看这一篇就够了
- 《Javascript权威指南》十六学习笔记:BOM资源---BOM基本应用
- NLP模型笔记2022-03:简单理解nlp句法分析
- hadoop 集群常用命令(学习笔记) —— 筑梦之路
- Java学习笔记(十)——多态
- cocos2dx游戏开发——微信打飞机学习笔记(十)——碰撞检测的搭建
- Golang学习笔记
- Scala学习笔记总结
- Python学习笔记(二)
- 【NLP】自然语言处理学习笔记(三)语音合成
- pytorch学习笔记(四):线性回归(用pytorchAPI)
- Elasticsearch 笔记 | 入门概念