提供了编程的基础技术教程

zl程序教程

您现在的位置是：首页 > 硬件

当前栏目

如何利用深度学习技术训练聊天机器人语言模型？

机器人训练技术学习语言如何利用模型

2023-09-27 14:20:47 时间

第一篇传送门：聊天机器人的发展状况与分类

第二篇传送门：基于规则和检索的聊天机器人引擎

本篇文章以这个开源项目为主线进行。

数据预处理

模型能聊的内容也取决于选取的语料。如果已经具备了原始聊天数据，可以用SQL通过关键字查询一些对话，也就是从大库里选取出一个小库来训练。从一些论文上，很多算法都是在数据预处理层面的，比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介绍了，从大库中抽取小库，然后再进行融合，训练出有特色的对话来。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-1】语料预处理, Ref. #7

对于英语，需要了解NLTK，NLTK提供了加载语料，语料标准化，语料分类，PoS词性标注，语意抽取等功能。

另一个功能强大的工具库是CoreNLP，作为 Stanford开源出来的工具，特色是实体标注，语意抽取，支持多种语言。

下面主要介绍两个内容：

中文分词

现在有很多中文分词的SDK，分词的算法也比较多，也有很多文章对不同SDK的性能做比较。做中文分词的示例代码如下。

# coding:utf8

Segmenter with Chinese

import jieba
import langid

def segment_chinese_sentence(sentence):

Return segmented sentence.

seg_list = jieba.cut(sentence, cut_all=False)
seg_sentence = u" ".join(seg_list)
return seg_sentence.strip().encode(utf8)

def process_sentence(sentence):

Only process Chinese Sentence.

if langid.classify(sentence)[0] == zh:
return segment_chinese_sentence(sentence)
return sentence

if __name__ == "__main__":
print(process_sentence(飞雪连天射白鹿))
print(process_sentence(I have a pen.))

以上使用了langid先判断语句是否是中文，然后使用jieba进行分词。

在功能上，jieba分词支持全切分模式，精确模式和搜索引擎模式。

全切分：输出所有分词。

精确：概率上的最佳分词。

所有引擎模式：对精确切分后的长句再进行分词。

jieba分词的实现

主要是分成下面三步：

1、加载字典，在内存中建立字典空间。

字典的构造是每行一个词，空格，词频，空格，词性。

上诉书 3 n
上诉人 3 n
上诉期 3 b
上诉状 4 n
上课 650 v

建立字典空间的是使用python的dict，采用前缀数组的方式。

使用前缀数组的原因是树结构只有一层 - word:freq，效率高，节省空间。比如单词"dog", 字典中将这样存储：

{
"d": 0,
"do": 0,
"dog": 1 # value为词频
}

字典空间的主要用途是对输入句子建立有向无环图，然后根据算法进行切分。算法的取舍主要是根据模式 - 全切，精确还是搜索。

2、对输入的语句分词，首先是建立一个有向无环图。
有向无环图, Directed acyclic graph (音 /ˈdæɡ/)。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-2】 DAG

DAG对于后面计算最大概率路径和使用HNN模型识别新词有直接关系。

3、按照模式，对有向无环图进行遍历，比如，在精确模式下，便利就是求最大权重和的路径，权重来自于在字典中定义的词频。对于没有出现在词典中的词，连续的单个字符也许会构成新词。然后用HMM模型和Viterbi算法识别新词。

精确模型切词：使用动态规划对最大概率路径进行求解。

最大概率路径：求route = (w1, w2, w3 ,.., wn)，使得Σweight(wi)最大。Wi为该词的词频。

更多的细节还需要读一下jieba的源码。

自定义字典

jieba分词默认的字典是:1998人民日报的切分语料还有一个msr的切分语料和一些txt小说。开发者可以自行添加字典，只要符合字典构建的格式就行。

jieba分词同时提供接口添加词汇。

Word embedding

使用机器学习训练的语言模型，网络算法是使用数字进行计算，在输入进行编码，在输出进行解码。word embedding就是编解码的手段。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-3】 word embedding, Ref. #7

word embedding是文本的数值化表示方法。表示法包括one-hot，bag of words，N-gram，分布式表示，共现矩阵等。

Word2vec

如何利用深度学习技术训练聊天机器人语言模型？

近年来，word2vec被广泛采用。Word2vec输入文章或者其他语料，输出语料中词汇建设的词向量空间。详细可参考word2vec数学原理解析。

使用word2vec

安装完成后，得到word2vec命令行工具。

word2vec -train "data/review.txt" \
-output "data/review.model" \
-cbow 1 \
-size 100 \
-window 8 \
-negative 25 \
-hs 0 \
-sample 1e-4 \
-threads 20 \
-binary 1 \
-iter 15

-train "data/review.txt" 表示在指定的语料库上训练模型

-cbow 1 表示用cbow模型，设成0表示用skip-gram模型

-size 100 词向量的维度为100

-window 8 训练窗口的大小为8 即考虑一个单词的前八个和后八个单词

-negative 25 -hs 0 是使用negative sample还是HS算法

-sample 1e-4 采用阈值

-threads 20 线程数

-binary 1 输出model保存成2进制

-iter 15 迭代次数

在训练完成后，就得到一个model，用该model可以查询每个词的词向量，在词和词之间求距离，将不同词放在数学公式中计算输出相关性的词。比如：

vector("法国") - vector("巴黎) + vector("英国") = vector("伦敦")"

对于训练不同的语料库，可以单独的训练词向量模型，可以利用已经训练好的模型。

其它训练词向量空间工具推荐：Glove。

Seq2Seq

2014年，Sequence to Sequence Learning with Neural Networks提出了使用深度学习技术，基于RNN和LSTM网络训练翻译系统，取得了突破，这一方法便应用在更广泛的领域，比如问答系统，图像字幕，语音识别，撰写诗词等。Seq2Seq完成了【encoder + decoder - target】的映射，在上面的论文中，清晰的介绍了实现方式。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-4】 Seq2Seq, Ref. #1

也有很多文章解读它的原理。在使用Seq2Seq的过程中，虽然也研究了它的结构，但我还不认为能理解和解释它。下面谈两点感受：

a. RNN保存了语言顺序的特点，这和CNN在处理带有形状的模型时如出一辙，就是数学模型的设计符合物理模型。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-5】 RNN, Ref. #6

b. LSTM Cell的复杂度对应了自然语言处理的复杂度。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-6】 LSTM, Ref. #6

理由是，有人将LSTM Cell尝试了多种其它方案传递状态，结果也很好。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-7】 GRU, Ref. #6

LSTM的一个替代方案：GRU。只要RNN的Cell足够复杂，它就能工作的很好。

使用DeepQA2训练语言模型

准备工作，下载项目：

git clone https://github.com/Samurais/DeepQA2.git
cd DeepQA2
open README.md # 根据README.md安装依赖包

DeepQA2将工作分成三个过程：

预处理

DeepQA2使用Cornell Movie Dialogs Corpus作为demo语料库。

原始数据就是movie_lines.txt 和movie_conversations.txt。这两个文件的组织形式参考README.txt

deepqa2/dataset/preprocesser.py是将这两个文件处理成数据字典的模块。

如何利用深度学习技术训练聊天机器人语言模型？

train_max_length_enco就是问题的长度，train_max_length_deco就是答案的长度。在语料库中，大于该长度的部分会被截断。

程序运行后，会生成dataset-cornell-20.pkl文件，它加载到python中是一个字典：

如何利用深度学习技术训练聊天机器人语言模型？

word2id存储了{word: id}，其中word是一个单词，id是int数字，代表这个单词的id。

id2word存储了{id: word}。

trainingSamples存储了问答的对话对。

比如 [[[1,2,3],[4,5,6]], [[7,8,9], [10, 11, 12]]]

1，2，3 ... 12 都是word id。

[1,2,3] 和 [4,5,6] 构成一个问答。 [7,8,9] 和 [10, 11, 12] 构成一个问答。

开始训练

cp config.sample.ini config.ini # modify keys
python deepqa2/train.py

config.ini是配置文件, 根据config.sample.ini进行修改。训练的时间由epoch，learning rate, maxlength和对话对的数量而定。

deepqa2/train.py大约100行，完成数据字典加载、初始化tensorflow的session，saver，writer、初始化神经元模型、根据epoch进行迭代，保存模型到磁盘。

session是网络图，由placeholder, variable, cell, layer, output 组成。

saver是保存model的，也可以用来恢复model。model就是实例化variable的session。

writer是查看loss fn或者其他开发者感兴趣的数据的收集器。writer的结果会被saver保存，然后使用tensorboard查看。

如何利用深度学习技术训练聊天机器人语言模型？

【图 3-8】 TensorBoard

Model

Model的构建要考虑输入，状态，softmax，输出。

如何利用深度学习技术训练聊天机器人语言模型？

定义损耗函数，使用AdamOptimizer进行迭代。

如何利用深度学习技术训练聊天机器人语言模型？

最后，参考一下训练的loop部分。

如何利用深度学习技术训练聊天机器人语言模型？

每次训练，model会被存储在 save路径下，文件夹的命名根据机器的hostname，时间戳生成。

如何利用深度学习技术训练聊天机器人语言模型？

提供服务

在TensorFlow中，提供了标准的serving模块 - tensorflow serving。但研究了很久，还专门看了一遍《C++ Essentials》，还没有将它搞定，社区也普遍抱怨tensorflow serving不好学，不好用。训练结束后，使用下面的脚本启动服务，DeepQA2的serve部分还是调用TensorFlow的python api。

cd DeepQA2/save/deeplearning.cobra.vulcan.20170127.175256/deepqa2/serve
cp db.sample.sqlite3 db.sqlite3
python manage.py runserver 0.0.0.0:8000

测试

POST /api/v1/question HTTP/1.1
Host: 127.0.0.1:8000
Content-Type: application/json
Authorization: Basic YWRtaW46cGFzc3dvcmQxMjM=
Cache-Control: no-cache

{"message": "good to know"}

response
{
"rc": 0,
"msg": "hello"
}

serve的核心代码在serve/api/chatbotmanager.py中。

使用脚本

scripts/start_training.sh 启动训练

scripts/start_tensorboard.sh 启动Tensorboard

scripts/start_serving.sh 启动服务

对模型的评价

目前代码具有很高的维护性，这也是从DeepQA项目进行重构的原因，更清晰的数据预处理、训练和服务。有新的变更可以添加到deepqa2/models中，然后在train.py和chatbotmanager.py变更一下。

有待改进的地方

a. 新建models/rnn2.py, 使用dropout。目前DeepQA中已经使用了Drop.

b. tensorflow rc0.12.x中已经提供了seq2seq network，可以更新成tf版本.

c. 融合训练，目前model只有一个库，应该是设计一个新的模型，支持一个大库和小库，不同权重进行，就如Mechanism-Aware Neural Machine for Dialogue Response Generation的介绍。

d. 代码支持多机多GPU运行。

e. 目前训练的结果都是QA对，对于一个问题，可以有多个答案。

f. 目前没有一个方法进行accuracy测试，一个思路是在训练中就提供干扰项，因为当前只有正确的答案，如果提供错误的答案（而且越多越好），就可以使用recall_at_k方法进行测试。

最后

欢迎联系我，尤其是业内人士，给予指正，一起优化。

本系列完结。

References

1. A Neural Conversational Model

2. Sequence to Sequence Learning with Neural Networks

3. DeepQA Project

4. Efficient Estimation of Word Representations in Vector Space

5. jieba分词分析

6. Tensorflow and deep learning - without a PhD by Martin Görner

7. Pragmatic NLP by Matt Fortier

本文作者：hain

本文转自雷锋网禁止二次转载，原文链接

人工智能不过尔尔，基于Python3深度学习库Keras/TensorFlow打造属于自己的聊天机器人(ChatRobot) 聊天机器人(ChatRobot)的概念我们并不陌生，也许你曾经在百无聊赖之下和Siri打情骂俏过，亦或是闲暇之余与小爱同学谈笑风生，无论如何，我们都得承认，人工智能已经深入了我们的生活。目前市面上提供三方api的机器人不胜枚举：微软小冰、图灵机器人、腾讯闲聊、青云客机器人等等，只要我们想，就随时可以在app端或者web应用上进行接入。但是，这些应用的底层到底如何实现的？在没有网络接入的情况下，我们能不能像美剧[《西部世界》(Westworld)](https://movie.douban.com/subject/2338055/)里面描绘的那样，机器人只需要存储在本地的“心智球”就可以和人类沟
【技术白皮书】第一章：OCR智能文字识别新发展——深度学习的文本信息抽取什么是基于深度学习的文本信息抽取? **信息抽取（Information Extraction）** 是把原始数据中包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始数据，输出的是固定格式的信息点，即从原始数据当中抽取有用的信息。信息抽取的主要任务是将各种各样的信息点从原始数据中抽取出来。然后以统一的形式集成在一起，方便后序的检索和比较。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息，无论是在信息检索、问答系统还是在情感分析、文本挖掘中，信息抽取都有广泛应用。随着深度学习在自然语言处理领域的很多方向取得了巨大成功......
预约直播 | 深度学习编译器技术趋势与阿里云BladeDISC的编译器实践阿里云AI技术分享会第二期《深度学习编译器技术趋势与阿里云BladeDISC的编译器实践》将在2022年08月17日晚18：00-18：30直播，精彩不容错过！
基于深度学习的图像分割技术图像语义分割是一种计算机视觉技术。随着深度学习发展,语义分割逐渐应用到医疗影像、自动化驾驶以及机器人视觉等领域。
基于深度学习的图像处理技术信息感知的目的是获取用户感兴趣的信息,为用户各方面的应用提供重要信息来源。信息感知最基本的功能是收集大量的数据,为了从大量数据集中分析和提取出隐含的重要信息,深度学习算法是常用的有效工具。而图像作为信息的重要载体,比起普通数据更能直观的表现出数据的信息特征,随着图像技术的发展,图像经常被用于目标的识别和信息的抽取。
基于深度学习的裂缝检测技术表面裂缝检测是监测混凝土结构健康的一项重要任务。如果裂纹发展并继续扩展，它们会减少有效承载表面积，并且随着时间的推移会导致结构失效。裂纹检测的人工过程费时费力，且受检验人员主观判断的影响。在高层建筑和桥梁的情况下，手动检查也可能难以执行。
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献在优化和决策过程中，不确定性量化(UQ)在减少不确定性方面起着至关重要的作用。它可以用于解决科学和工程中的各种实际应用。贝叶斯逼近和集成学习技术是目前文献中使用最广泛的两种UQ方法。在任何基于人工智能的系统中，以一种值得信赖的方式表示不确定性是非常可取的。通过有效地处理不确定性，这样的自动化系统应该能够准确地执行。不确定性因素在人工智能中扮演着重要的角色
云栖大讲堂擅长前端领域，欢迎各位热爱前端的朋友加入我们（钉钉群号：23351485）关注【前端那些事儿】云栖号，更多好文持续更新中！

相关文章

猜你喜欢

网络安全系列-V: Scapy基础--常用函数整理
Tensorflow Batch normalization函数
Mybatis什么时候需要声明jdbcType?
汇编子程序模块化(near&far)
共享内存通讯编程
kNN的维数灾难与PCA降维
vscode settings.json文件不小心被sync同步后清空了怎么办？
FPAG中SignalTap II在线逻辑分析仪的使用方法
linux发布项目
算法 Heap sort
.net framework client profile
java.lang.OutOfMemoryError: Java heap space解决方法
Oracle存储过程和存储函数的样例
（《机器学习》完整版系列）第11章特征选择与稀疏学习——11.5 稀疏表示与字典学习（字典、词频、文档的特征）

相关主题

机器人
钉钉机器人
机器人的运动范围
机器人的运动范围_66
2021.44 工业机器人之父
qq机器人
机器人运动学
人形机器人
机器人是什么

站点声明：
本站内容来源于合作伙伴及网络搜集，版权归原作者所有。如有侵犯版权，请立刻和本站联系 361703575#qq.com，我们将在三个工作日内予以改正。

Copyright © All Rights Reserved. 豫ICP备2022023484号

Powered By Z-BlogPHP[程序] · ZBlog模板[开发]网站地图网站地图1
友情链接：友情链接