首頁  >  IT頻道  >  頭條  > 正文

一場技術的博弈:查重系統vs過關“妙招”

2018-04-16 08:54:20 | 來源: 科技日報 | 編輯: 朱安娜 | 責編: 韓俁
分享到:

  又是一年畢業季,“論文月”也隨之到來。經過開題、中期檢查之後,為了遏制論文造假,不少高校會借助文獻檢測系統來判斷論文是否涉嫌抄襲。

  為了幫助畢業生順利“過關”,一些聲稱可降低重復率的“錦囊妙計”也在網上流傳。日前,微信公眾號“畢業有道”推出《了解知網查重原理,論文重復率3%以下也很容易》一文,其仲介紹了變化措辭、翻譯替代、圖片變換等“降重”方法。

  那麼,這些“偏方”真的管用嗎?

  “偏方”會被系統迭代掉

  隨著電腦技術與網際網路技術的發展,越來越多的文獻資訊被數字化。這些電子資料為工作、學習帶來巨大便利的同時,也為抄襲、剽竊等行為提供了“方便”。

  當前,論文相似性檢測系統是反剽竊最有效的技術手段之一。國內的論文檢測系統眾多,其中中國知網(以下簡稱“知網”)的學術不端文獻檢測系統、北京萬方數據股份有限公司(以下簡稱“萬方”)的論文相似性檢測系統和重慶維普資訊有限公司(以下簡稱“維普”)的論文檢測系統是市場佔有率較高的三大檢測系統。

  談及這些系統的檢測原理,中國科學技術資訊研究所副研究員張英傑告訴科技日報記者,雖然各家的檢測系統在細節設計上有所不同,但均基於相同的技術原理。它們都是將論文進行分解,而後對比資源庫,並利用相關演算法進行匹配度檢測。

  “匹配度檢測也可稱為文本片段比對,簡單來說就是檢測論文內容是不是與資源庫中的內容重復。”武漢大學資訊管理學院副教授胡吉明說,論文上傳系統後,系統一般會根據文章目錄把文章“切”成幾大段,之後再將大段“切”成小段,將其與資源庫中的文本內容進行比對。如果這一小段內容和數據庫中的某個文本重復,那這部分內容就會被判定為涉嫌抄襲。

  維普相關工作人員告訴科技日報記者,各家檢測系統在設計上都盡可能倣照人的閱讀方式,實現以機器代替人工,以求提升檢測的精準度。

  針對網上流傳的“偏方”,多名業內人士向科技日報記者表示,系統設計的初衷是貼近人的閱讀方式,以這個目標為設計出發點,隨著系統升級,“偏方”自然會被迭代掉。據維普相關工作人員介紹,在演算法上他們採用了多重防護機制,從而杜絕用“偏方”矇混過關的情況出現;同時他們提供了“格式分析報告”,詳細列出了送檢文檔中“圖片”“空格”的數量,可供指導教師進行人工審查。

  演算法差異致反饋結果不同

  當前,針對不同學歷階段,高校對畢業生論文的重復率要求也不同。本科生畢業論文的重復率一般要求在30%或20%以下,碩士畢業論文則提至15%,博士研究生則規定要在10%甚至5%以下才算合格。現階段論文檢測一般由學校或學院組織,專業機構提供論文檢測服務,相關檢測數據或結果將會在系統前端呈現給學校。目前知網尚未開通個人檢測服務,而萬方、維普已開設個人檢測窗口。

  在送審前,不少應屆生都會進行“自檢”,依照學校對重復率的要求做進一步修改。在“自檢”時不少學生會困惑,為何在兩家機構檢測出來的相似度一個是15%,一個是20%?

  維普相關工作人員向科技日報記者介紹,���于各家運用了不同的演算法模型、基於不同的開發平臺,因而造成相似度數值的差異。

  各家的差別有多大呢?他打了個比方,如同蘋果iOS系統和安卓系統一樣,它們是按照不同思路設計出來的,各家的演算法沒法做同類對比。目前這方面沒有相應的國家標準,各家根據自身的產品設計思路和原理模型提出了檢測方法,於是就有了一定的差異。

  目前,市場上存在多種檢測技術,如基於字符串比較的方法和基於詞頻統計的方法等。“各家公司在技術上差距不大。”萬方相關人員向科技日報記者介紹,不同演算法可理解為不同的重復率判斷方式。比如說,一篇文章中的某段話算不算抄襲,可能A演算法認為80%的一致率是抄襲,B演算法則規定70%的一致率是抄襲。“當然每種演算法都有很複雜的計算模型,並沒有例子中說的這麼簡單。”萬方相關工作人員說。

  “資源庫也很重要。”張英傑表示,作為一個論文相似性檢測系統,其資源庫收錄資源類型是否齊全、學科是否齊全、年限是否足夠長、資源數量是否足夠大等因素,都會對檢測結果產生影響。從學科上來看,三家檢測機構都已做到全學科收錄;從收錄文章的種類和數量來看,知網更具優勢,萬方在一些學科如醫學領域有獨家收錄的文章,維普則在中文期刊數據庫建設方面起步較早。

  抄襲判定標準有待更新

  對於抄襲的定義,隨著檢測技術的發展也在改變。

  南京大學資訊管理學院教授蘇新寧介紹,現在的抄襲可分為兩種,一種是文字的抄襲,另一種是內容的抄襲。在論文檢測技術發展的早期,一些作者會通過變換他人文章中詞語的方式躲避檢測,“這在早期的軟體中不容易被查出來。”蘇新寧說,但隨著內容檢測技術的發展,這種做法已經不靈了。

  現在的內容檢測並不是對文章進行逐字逐句的檢測,而是用文章中出現的關鍵詞和資源庫中文章的詞語作對比。如果這個詞和資源庫某篇文章的詞大量相同,雖然順序不同,但在檢測系統中還是會被認定為相似。蘇新寧舉例說,如“我評價了這個問題”和“我對這個問題進行了評價”這兩句話,如果後面的內容也都是這樣顛倒語句,同樣會被認定為是相似。也就是說,現在的檢測系統除了對文章語法層面的詞彙、句法結構進行分析,也會在一定程度上進行語義層面的檢測。

  說到相似和抄襲的不同,蘇新寧坦言,現在的檢測系統確實還存在一些局限。比如,對於一些公理性質的文字,系統也會判定為重復。如“一帶一路”這類詞如果在文章中多次出現,是否該被判定為抄襲,這值得商榷。

  談及對外文文獻的比對檢測,多位專家認為,我國目前在外文檢測技術方面還比較薄弱。蘇新寧介紹,一方面是因為外文文獻數量大、種類多,相關資源庫的建設工作尚處起步階段。另一方面,中文和外文在語法和語義方面都存在較大差異,如何判定為抄襲也是個問題。但現在多數的期刊評審專家,一般都閱讀過大量自己領域內的外文文獻,對於送審論文是否抄襲了外文文獻,會有自己的判斷。(翟冬冬)

國際線上版權與資訊產品內容銷售的聲明:

1、“國際線上”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際線上網路(北京)有限公司獨家負責“國際線上”網站的市場經營。

2、凡本網註明“來源:國際線上”的所有資訊內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。

3、“國際線上”自有版權資訊(包括但不限于“國際線上專稿”、“國際線上消息”、“國際線上XX消息”“國際線上報道”“國際線上XX報道”等資訊內容,但明確標注為第三方版權的內容除外)均由國廣國際線上網路(北京)有限公司統一管理和銷售。

已取得國廣國際線上網路(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際線上”。違反上述聲明者,本網將追究其相關法律責任。

任何未與國廣國際線上網路(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個每人平均無權銷售、使用“國際線上”網站的自有版權資訊產品。否則,國廣國際線上網路(北京)有限公司將採取法律手段維護合法權益,因此產生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。

4、凡本網註明“來源:XXX(非國際線上)”的作品,均轉載自其他媒體,轉載目的在於傳遞更多資訊,豐富網路文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。

5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。