zl程序教程

您现在的位置是:首页 >  其他

当前栏目

评价指标:相似度、GAS消耗

2023-04-18 15:27:32 时间

【代码注释自动生成方法综述】

这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的相似度.

BLEU指标[​[88](javascript:void(0);)^]^:其全称是bilingual evaluation understudy.该指标是最早用于评估机器翻译的评测指标.用于比较候选文本和参考文本里n元词组(n-gram)的重合程度.其中,BLEU-1/2/3/4分别对应一元词组、二元词组、三元词组和四元词组的重合程度.其中,BLEU-1可以用于衡量单词翻译的准确性,而随着n的取值增大,BLEU指标则可以进一步衡量文本的流畅性.不难看出,BLEU指标的取值越高,即n元词组的重合程度越高,则认为候选文本的质量也越高.

但BLEU指标更偏重查准率,而忽略了查全率(即参考文本中未在候选文本中出现的n元词组).虽然可以通过引入长度惩罚因子(brevity penalty)来惩罚候选文本过短的问题,但从整体上来看,BLEU评测指标更偏向于较短的候选文本.

(2) METEOR指标[​[89](javascript:void(0);)^]^:其全称是metric for evaluation of translation with explicit ordering.其使用Word Net等知识源来扩充同义词集,同时考虑了单词的词形.在评价句子流畅度时,使用了chunk(即候选文本和参考文本能够对齐的,并且空间排列上连续的单词形成一个chunk)的概念,chunk的数目越少,意味着每个chunk的平均长度越长,即候选文本和参考文本的语序越一致.

(3) ROUGE指标[​[90](javascript:void(0);)^]^:其全称是recall-oriented understudy for gisting evaluation.与BLEU指标相似,但BLEU指标面向的是查准率,而ROGUE指标面向的是查全率.该指标在文本摘要研究中被经常使用,又可以细分为ROUGE-N和ROUGE-L.其中,ROUGE-N指标以n元词组为基本单元,计算两个句子之间n元词组的重合率.而ROUGE-L指标与ROUGE-N指标相似,但是针对的是最长公共子序列(longest common subsequence)的重合率.

(4) CIDER指标[​[91](javascript:void(0);)^]^:其全称是consensus-based image description evaluation.一般用于图像字幕生成问题.该评测指标可以认为是BLEU指标和向量空间模型的集合.其将每个句子视为文档,然后计算出n元词组的tf-idf值,通过余弦夹角计算出候选文本和参考文本之间的相似度.最后,基于不同长度的n元词组计算出平均取值,并作为最终结果.

不难看出,BLEU、METOR和ROUGE指标的取值范围介于0~1之间,并经常以百分比的形式给出.而CIDER指标对的取值范围并不在0~1之间,因此经常以实数的形式给出.

GAS消耗

和Solidity对比

邀请人测试