作者:林政宏(雲書苑教育科技有限公司)
一、抄襲攻防大戰
當論文發表這件事變成一道不可逾越的關卡,直接催生了一套灰色服務。根據行家透露,國內至少有兩家代寫的工作室,年產量超過2000份論文。以一份7萬元收費行情計算,只需幾個人,便能創造出三億元的驚人產值。
當學界還在斟酌論文發表是否需經相似度系統分析時,代寫產業早已用負責的態度編列預算,為其產品執行原創性比對了。是的,他們還更重視職業及學術倫理。
代寫工廠是一個業務單位,接到訂單後發包給槍手。寫手若隨便抄一篇論文敷衍了事,工作室的客服人員將面臨客戶無止境的追罵,很容易收不到尾款。因此他們更需要一套審核機制,有效管理生產品質,以維持業務順利運作。
多年的市場觀察,在這江湖裡,有一些有趣的狀況:
- 抄襲的主要來源,是一些跨國代寫工廠。他們抄襲的方法充滿創意。
- 代寫工廠根據客戶要求通過的比對系統,對代寫論文進行不同報價。
- 國外的原創比對系統很容易過關。
二、進攻招式大盤點
1、灌水法
來看下面這篇論文,我們用WORD統計字數,短短5頁的篇幅,居然超過7百萬字。這類型論文首次出現約在2017年,目前已經很常見。
甚不合理的字數與頁數比例,引發了是不是用了WORD裡句集macro指令,或VBA的分析,甚至是病毒導致的猜測。看一下這個尋常不過的句號:
把句號放大幾倍,♫眼前的圓不是圓♫:
再放大一點,♫你說的白是什麼白♫:
♫你是我的眼,讓我看見這世界就在我眼前♫:
使用這方法可輕易地改造出一篇相似度很低的論文。網路上有許多免費小工具,可自動產生指定字數的中文亂碼。只要將這些亂碼隱藏在文章中,就可直接送至比對系統,順利交差了事。
2、貼圖法
貼圖法意即以文章截圖方式抄襲他人著作,逕自將圖片貼到自己的文章裡。下圖範例中的兩篇文章皆為兩萬字,但仔細觀察檔案大小,會發現兩者相差許多。
開啟第一個檔案,會發現其內文並非打字而得,而是以圖片方式呈現。這說明了該內容並非原創,而是用截圖拷貝他人的內容,也是為何字數相近的兩份文件,含有圖片者檔案較大的主因。
3、調換語序
抄襲他人文章時,刻意調換某些文句的順序,希望藉此操作,降低與原著的相似度。然而由下圖可知,經過中文比對系統的檢測,抄襲文章的相似度與原著相同,可見此招難以行走江湖。
觀察下面左右二圖,分別標示紅色及藍色的文句,內容極為相似,只是順序不同。
4、段落重組
抄襲者以段落為單位,調整各段落的順序,組成新的文章,而其內容和原著完全相同。因此若將抄襲文章送出比對,其相似度不變。
下圖範例顯示出兩篇文章僅調整了段落順序,字句內容一樣。
5、拼接法
抄襲者抓取多篇文章的部分內容,拼湊成一份新文章。中文系統在比對時,仍能發現拼接軌跡,顯示相似度過高的結果。
6、不加思索法
顧名思義,即為抄襲他人作品時忠於原著,如下圖所示,相似度接近滿分。
三、守方的戰術
面對兩岸這龐大產業產生的文稿,國外比對系統用「字串比對」技術,在中文比對上顯得難以招架,下一篇來聊聊中文相似度比對的「文風分析」,以及META語言分析等等的把關武器,如何來幫助使用者解決資料引用疏失等的問題。
延伸閱讀: