您现在的位置是：首页 > 工具

当前栏目

NLP学习笔记

笔记学习 NLP

2023-09-11 14:17:47 时间

NLPL学习笔记

gensim-word2vec

训练

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import multiprocessing
def create_wordVectors(sentences, embedding_size = 128, window = 5, min_count = 5, word2vec_path = None):
    w2vModel = Word2Vec(sentences, size=embedding_size, window=window, min_count=min_count,workers=multiprocessing.cpu_count())
    w2vModel.save(word2vec_path)

载入

def load_wordVectors(word2vec_path):
    w2vModel = Word2Vec.load(word2vec_path)
    return w2vModel

映射

def embedding_lookup(w2vModel, sentences):
    all_vectors = []
    embeddingDim = w2vModel.vector_size
    embeddingUnknown = [0 for i in range(embeddingDim)]
    for sentence in sentences:
        this_vector = []
        for word in sentence:
            if word in w2vModel.wv.vocab:
                v=w2vModel[word]
                this_vector.append(v)
            else:
                this_vector.append(embeddingUnknown)
        all_vectors.append(this_vector)
    return all_vectors

获得单词下标和词向量

    w2vModel = Word2Vec.load(word2vec_path)
    word = '你'
    index = w2vModel.wv.vocab[word].index  # 获得单词word的下标
    word2= w2vModel.wv.index2word[index]   # 根据index,获得对应的word
    
    vector1 = w2vModel.wv.vectors[index]   # 由下标获得词向量
    vector2 = w2vModel[word]               # 由word直接获得词向量

猜你喜欢

getopts
分析师洞察：边缘数据中心的UPS系统
JavaScript 基础
mysql5.7安装
Vue.js 样式绑定
三种循环语句的使用
华为OD机试 -寻找相同子串（Java） | 机试题+算法思路+考点+代码解析【2023】
[LeetCode] 138. Copy List with Random Pointer 拷贝带有随机指针的链表
基于Docker 搭建 Jenkins
MSF常用命令整理(Updating...)
网页版的Xshell
【手势交互】4. Kinect for XBox
演讲稿丨张代君人工智能中的虚拟现实
大道至简：认识的过程要抽象到极致，行动的过程要简单有效
OA请假流程 -- 编码
内核中的xenfs是什么?

相关主题

C++学习笔记1
git 学习笔记
Django笔记
Angular学习笔记(一)

zl程序教程

当前栏目

NLP学习笔记

NLPL学习笔记

gensim-word2vec

训练

载入

映射

获得单词下标和词向量

相关文章