您现在的位置是：首页 > 其他

当前栏目

评价指标：相似度、GAS消耗

2023-04-18 15:27:32 时间

【代码注释自动生成方法综述】

这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的相似度.

BLEU指标^[[88](javascript:void(0);)^]^:其全称是bilingual evaluation understudy.该指标是最早用于评估机器翻译的评测指标.用于比较候选文本和参考文本里n元词组(n-gram)的重合程度.其中,BLEU-1/2/3/4分别对应一元词组、二元词组、三元词组和四元词组的重合程度.其中,BLEU-1可以用于衡量单词翻译的准确性,而随着n的取值增大,BLEU指标则可以进一步衡量文本的流畅性.不难看出,BLEU指标的取值越高,即n元词组的重合程度越高,则认为候选文本的质量也越高.

但BLEU指标更偏重查准率,而忽略了查全率(即参考文本中未在候选文本中出现的n元词组).虽然可以通过引入长度惩罚因子(brevity penalty)来惩罚候选文本过短的问题,但从整体上来看,BLEU评测指标更偏向于较短的候选文本.

(2) METEOR指标^[[89](javascript:void(0);)^]^:其全称是metric for evaluation of translation with explicit ordering.其使用Word Net等知识源来扩充同义词集,同时考虑了单词的词形.在评价句子流畅度时,使用了chunk(即候选文本和参考文本能够对齐的,并且空间排列上连续的单词形成一个chunk)的概念,chunk的数目越少,意味着每个chunk的平均长度越长,即候选文本和参考文本的语序越一致.

(3) ROUGE指标^[[90](javascript:void(0);)^]^:其全称是recall-oriented understudy for gisting evaluation.与BLEU指标相似,但BLEU指标面向的是查准率,而ROGUE指标面向的是查全率.该指标在文本摘要研究中被经常使用,又可以细分为ROUGE-N和ROUGE-L.其中,ROUGE-N指标以n元词组为基本单元,计算两个句子之间n元词组的重合率.而ROUGE-L指标与ROUGE-N指标相似,但是针对的是最长公共子序列(longest common subsequence)的重合率.

(4) CIDER指标^[[91](javascript:void(0);)^]^:其全称是consensus-based image description evaluation.一般用于图像字幕生成问题.该评测指标可以认为是BLEU指标和向量空间模型的集合.其将每个句子视为文档,然后计算出n元词组的tf-idf值,通过余弦夹角计算出候选文本和参考文本之间的相似度.最后,基于不同长度的n元词组计算出平均取值,并作为最终结果.

不难看出,BLEU、METOR和ROUGE指标的取值范围介于0～1之间,并经常以百分比的形式给出.而CIDER指标对的取值范围并不在0～1之间,因此经常以实数的形式给出.

‍

GAS消耗

和Solidity对比

邀请人测试

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

评价指标：相似度、GAS消耗

【代码注释自动生成方法综述】

相关文章