您的位置:主页 > 戏曲 > 粤剧 >

反抄袭机器

2019-11-07     来源:白乐彩         内容标签:反,抄袭,机器,每天,研究人员,都会,向,大量,的,

导读:每天,研究人员都会向大量的科学写作和研究公共数据库ArXiv添加数百篇新论文。每项新工作都有一个特殊的检测系统通过ArXiv寻找之前见过的文本。工作原理:算法采用ArXiv创始人Paul

每天,研究人员都会向大量的科学写作和研究公共数据库ArXiv添加数百篇新论文。

每项新工作都有一个特殊的检测系统通过ArXiv寻找之前见过的文本。工作原理:算法采用ArXiv创始人PaulGinsparg称之为每个传入文档的“文本指纹”,然后将该指纹与数据库中的所有其他指纹进行比较。Ginsparg在一封电子邮件中告诉我,“这种算法可以将每天500多篇新文章与数据库中已有的约100万篇文章进行比较。”

比赛常常弹出。每月提交的约3%-约250篇论文-被标记为重复使用的文本。这每年增加了数千篇论文。Ginsparg希望更多地了解究竟发生了什么。因此,他和一位同事最近审查了在二十年内发布到ArXiv的数十万篇论文中的文本重用。(当然,他们的研究结果可以通过数据库获得。)

Ginsparg和合着者DanielCitron从一些基本问题开始。世界上哪些地方的研究人员经常复制其他人的作品?还有多少人直接抄袭而不是引用-但仍然引用别人的东西?他们发现他们感到惊讶。一方面,很多研究人员重新使用了其他人的大量文本似乎Ginsparg说,很少有人知道这些网络应该如何构成。

“这不是高质量的研究,通常是”在他的雷达下,“”他告诉我。“有时它是不合时宜的主流研究人员(发展中国家等)尽其所能。其他时候,它是如此极端,给人的印象是他们“有意识地双重填写出版记录。”

在这一发现中可能会有一些保证,即重复使用文本最多的文章往往被其他人引用最少。换句话说,Ginsparg发现,重复使用最多文本的作品并不是最有影响力的作品。但是,这种反向关系也可能表明一些连续文本重新用户正在逃避智能盗窃。

当然,并非所有文本重用都是错误的。(考虑一下本文中重复使用的文本形式:我引用了Ginsparg的论文。)但Ginsparg提醒我,ArXiv用于标记工作的门槛“非常宽松”,允许多达20%的自我他说:-从之前的文章中复制,或者“在被标记之前逐字逐句”,以便重新使用来自他人工作的文本。例如,本周被标记的一篇论文包括“逐段逐字逐句”。其他作者至少有10个不同的来源,“Ginsparg说。”这些都被引用,但仍然草率地从其他来源逐字复制段落。“

在一些国家,文本重用似乎也发生得更多与其他人相比,这一发现反映了学术文化的差异以及非英语母语人士在用英语写作时可能更多地依赖引用他人的可能性。但是有几个重叠的因素在起作用。来自Ginsparg的论文:“许多来自非西方文化的学生从未听过”剽窃“这个词,在某些文化中,重写另一位作者的话被认为是不尊重的。”(来自以下国家的作品占比最高)已提交的意见书:孟加拉国,白俄罗斯,保加利亚,哥伦比亚,塞浦路斯,埃及,伊朗,约旦,哈萨克斯坦,吉尔吉斯斯坦,拉脱维亚,卢森堡,密克罗尼西亚,摩尔多瓦,巴基斯坦,沙特阿拉伯和乌兹别克斯坦。)

文章链接地址:http://www.statwd.com/xiqu/yueju/201911/1870.html

上一篇:白乐彩专场:克利夫兰受害者不想与媒体对话
下一篇:没有了