zl程序教程

您现在的位置是:首页 >  其他

当前栏目

原创 | arXiv上成功发表的预印本有什么特征?这样写,你的论文也能中!

论文 什么 成功 这样 特征 原创 发表 Arxiv
2023-06-13 09:17:54 时间
作者:林嘉亮审校:陈之炎 本文约4400字,建议阅读8分钟本文介绍了专注于科学和工程领域的印刷本平台——arXiv的特征。

“预印本(preprint)是一份完整的科学论文手稿(通常也会同时提交给需要同行评审的期刊),由作者在未经过评审的状态下上传至公共平台”。预印本平台的用户可以不经过严格的同行评审,在简单的审查之后,发布自己的手稿。尽管预印本的“预”表示出版前的预提交概念,但也存在大量出版后提交给预印本平台的后印本(post-print)。在本文中,将“预印本”定义为“e-print”,同时代表预印本平台上的“预印本”和“后印本”。“未发表”一词用于描述一篇预印本尚未被任何类型的出版物接收的状态。“发表”一词用于描述预印本已经过同行评审,并在期刊、会议、书籍、报告或其他类型的出版物中正式刊登(包括在线优先刊登)的状态。

arXiv,成立于1991年,是专注于科学和工程领域的预印本平台。从成立到2014年,经过23年的发展,arXiv共收录了100万篇稿件。至2019年,它平均每月收稿量达13,000份。Computing Research Repository(CoRR)是arXiv一个重要的组成部分。该文库涵盖了计算机科学的各种子类别,经过多年发展后,越来越受到计算机科学领域研究人员的重视,提交量处于快速增长之中。很多计算机科学领域的手稿在完成时,甚至在半完成的状态时就会被提交到CoRR。CoRR是当前计算机科学领域最著名和使用最广泛的预印本平台。

对于数量巨大的预印本,究竟有多少可以正式发表?为什么可以发表?通过挖掘和分析成功发表的预印本,可以获得优质论文的特征,为学术论文写作提供建议。来自厦门大学自然语言处理实验室的团队通过对2008年至2017年arXiv上计算机科学的相关预印本进行案例研究,回答了这两个问题。论文信息如图1所示。

图1 本文相关学术论文信息

预印本在提交到平台后一般会同时投递到期刊或会议,作者会收到来自审稿人、编辑和学术同行等各方面的反馈。这样的反馈可能会包括对手稿原始标题的修改。原始标题修改后的文章正式发表后,作者并不一定会及时更新预印本平台上的版本。所以,用字符串匹配方法匹配预印本和正式发表的论文是不恰当的。为此论文作者提出了一种基于语义的方法,用于判断一篇预印本与其他论文是否是同源论文。所提方法的准确度为0.78,F1分值达0.72,其中准确度比前人的方法提高了56%。

用这个方法,将2008年至2017年arXiv上计算机科学的相关预印本共141,961篇与它们正式发表的版本进行了映射,一一匹配。最后发现,有65.7%的预印本以相同的标题发表在经过同行评审的出版物上,有11.4%的预印本经过修改后以不同的标题发表。发表情况可分为四种类型。详细情况见图2。

图2 预印本不同发表情况分布

接着,论文作者对已发表预印本与未发表预印本进行了版本历史、作者数量与文章各部分长度、参考文献数量及其总被引次数、图表数量、附带源代码等方面的比较,以确定哪些特征能使预印本最终“印刷”发表。

Science Parse可用于解析arXiv上的PDF文件,该工具将PDF文件转化为结构化的XML文件,包括标题、作者、摘要、引言、结论和参考文献等在内的文章信息和结构会被分割和标识。为了进行深入的比较,论文作者将已发表预印本分为两类:期刊论文和会议论文。在已发表预印本、期刊论文、会议论文和未发表预印本之间进行了比较。此外,书籍章节和其他类型的出版物在本次比较中被排除。一方面,书籍章节的写作风格与会议和期刊论文的写作风格大相径庭;另一方面,其他类型的出版物只占总数的极小份额,因此代表性不强。对于以不同标题发表的论文,它们存放在arXiv上的版本可能不是最终版本,因此也被排除在数据之外。除此之外,本次比较还排除了发表后没有向arXiv提交更新版本的论文,以确保只在已发表预印本的正式出版版本中进行比较。

arXiv允许用户对预印本的内容和元数据进行修改,没有时间限制。这种自由是预印本平台提供的对比传统出版行业的显著优势,作者可以持续更新他们的工作,而不需要经过复杂的审查过程。论文作者比较了已发表预印本与未发表预印本之间的提交次数。详细情况见表1。

表1 不同提交次数预印本的分布比例比较

表1显示,单一版本的预印本在已发表预印本与未发表预印本中占比最大,这表明arXiv主要被研究人员用作与他人分享成果的平台。已发表预印本中的无修订版本的比例低于未发表预印本。而就更新一个以上版本的比例而言,已发表预印本则超过了未发表预印本。这一结果可以解释为:(1)反复修改通常会带来更高的质量,因此反复修改的预印本有更大的机会被接收;(2)在他们的预印本被接收发表后,大多数作者会将接收的版本上传到arXiv以确保工作的完整性和一致性。此外,在arXiv上很少有超过5个版本的预印本,这是因为第5个版本之后的修订不会再被列入arXiv的每日通知服务中。

读者在阅读文章时第一个最直观的感受就是文章的长度,其中也包括作者的数量。论文作者对这两个因素进行了比较。在统计中,会排查缺失的章节。详细情况见表2。

表2 作者数量与文章各部分长度中位数比较

从表2中可以看到,就作者数量而言,已发表预印本的中位数高于未发表预印本的中位数。这意味着多作者是被接收论文的一个特点。从文章长度来看,已发表预印本的中位数都大于未发表预印本的中位数。这些结果说明,文章的篇幅是审稿人看重的其中一个质量指标。篇幅从某一个角度来说,是工作量的体现,工作量扎实则是高质量文章的一个重要特征。值得注意的是,已发表预印本的摘要和引言明显较长,分别比未发表预印本多出9%和23%的长度。这表明,详细的摘要和引言是已发表预印本的显著特征。在会议论文和期刊论文的比较中,除了作者数量,期刊论文在其他项目均超过了会议论文。根据论文作者的分析,造成这一结果的原因是会议出版物对文章长度有更严格的限制(多为8或12页),因此会议论文通常采用更简洁的写作风格。

对于学术论文来说,参考文献是不可或缺的,而且在某种程度上,引用行为与论文的学术质量高度相关。为此,论文作者对参考文献的数量以及这些参考文献的总被引次数进行了比较。爬取海量文献的被引次数是非常耗时耗力的,为此采用了一种折中的可行方案,即用2016年至2017年标有人工智能(cs.AI)子类标签的预印本子集作为代表。在这个子集中共有4,743篇预印本。详细情况见表3。需要注意的是,参考文献数据并不包括在arXiv的API中,它们是通过解析PDF文件获得的。由于PDF文件的解析可能会出现错误,即解析出的有效数量比真实数量少,所以表中呈现的参考文献数和总被引次数会比实际值要低一些。

表3 参考文献中位数及其总被引次数中位数比较

从表3中可以清楚地看到,与未发表预印本相比,已发表预印本的参考文献更多。这一结果表明,参考文献的数量与论文是否可以发表呈正相关。从参考文献数量的中位数来看,已发表预印本比未发表预印本多了30%。已发表预印本参考文献总被引次数的中位数也比未发表的高45%。从中位数来看,期刊论文的参考文献比会议论文多,而会议论文的参考文献被引的情况更多。

参考文献被引总次数相当高,这是因为一篇论文的参考文献中,经常会出现一到数篇被引次数极高的文献。例如,“R: A Language and Environment for Statistical Computing”获得了超过14万次的引用。这些高被引文献把参考文献被引总次数推高了。

图片与表格是学术写作中的两个基本组成部分。它们能以直截了当的方式突出和强化关键信息,极大地增加了论文的可读性。论文作者对抽样预印本中的图与表进行了解析,并分别计算他们的中位数。详细情况见表4。

表4 图表数量的中位数比较

表4中显示的结果与预期不同。已发表预印本与未发表预印本在图片数量中位数上一致。出人意料的是期刊论文和未发表预印本的表格数量中位数都是零,论文作者担心这些数值是由解析工具的错误造成的,所以从未发表预印本中随机选择了100个样本,手动统计了PDF文件中的表格数量,结果其中位数仍然为零。另外值得注意的是,期刊论文比会议论文使用了更多的图片和更少的表格。总的来说,能成功发表的论文不一定有更多的图和表。然而,可以从这些结果中得出一个结论:计算机科学论文普遍会在论文中使用图片,这表明现在的研究人员很清楚图片是一种有效的展示说明形式。

计算机科学研究的可复现性在很大程度上基于其源代码,是否提供源代码可以被认为是研究的可靠性和可信度的一个指标。源代码是研究人员对其学术工作信心的坚实证明,因为其他研究人员可以借此再现作者的方法和复现作者的结果。本文统计了已发表预印本与未发表预印本中附带源代码论文的百分比,以确定附带源代码对论文接收率的影响。

论文作者使用Papers With Code提供的数据对抽样预印本和其相应的源代码仓库进行了映射。共发现5,319篇预印本提供了源代码,仅占总样本的3.7%。占比非常少,一种解释是,计算机科学某些领域的论文是纯理论的,因此不涉及实现代码。所以,统计范围被限定在了至少属于以下类别之一的预印本:Artificial Intelligence, Computation and Language、Computer Vision and Pattern Recognition、Information Retrieval、Machine Learning和Neural and Evolutionary Computing。总共有46,937篇预印本,其中11.3%有可用的源代码。这个比例还是略低的。有一种解释是,Papers With Code倾向于收录最近几年发表的论文。因此,对于本研究抽样范围

里的某些预印本,特别是早期的样本,即使有提供源代码,也可能不包括在Papers With Code中。

在有附带源代码的预印本中,有79.7%经过同行评审后在出版物上发表,20.3%未发表,这强有力地表明附带源代码与接收率紧密相关。因此,作者建议研究人员在论文中提供相关的源代码。这样不仅有利于论文的接收,而且对整个领域的发展也有很大的帮助。

总之,与未发表的预印本相比,计算机科学领域中大多数已发表的预印本具有充分的修改版本、多作者、详细的摘要和引言、广泛而权威的参考文献和提供可用的源代码等诸多特点。

编辑:王菁

校对:杨学俊

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。