淺談中文比對系統中的「文風分析」

作者:林政宏(雲書苑教育科技有限公司)

在上一篇文章(新笑傲江湖—你不知道的論文抄襲招式)中,我們介紹了目前抄襲者為逃避相似度比對所採取的種種措施。接下來談談臺灣本土開發的中文比對系統如何面對這些挑戰。

以紅樓夢來做文字風格分析測試

首先介紹的是,快刀系統在2010年對外公開的「文風分析」比對方法。

關於國學名著紅樓夢的作者是誰,一直是學界爭議的焦點。根據胡適先生的考證,認為前八十回與後四十回並非同一人。如今,拜科技之賜,我們透過量化分析及詞頻統計方式,對紅樓夢的文風進行分析,進而輔助學者從事相關研究。

快刀系統的分析步驟如下:

  • 取得全文。此次分析的範本,是經過輾轉尋找,終於找到一份校對六次過的精校版紅樓夢全文。
  • 去掉多餘標點符號,只留下純文字。
  • 處理「停用詞」。停用詞是指的是文章中可忽略的介系詞,語助詞,結尾感嘆詞等等。但因紅樓夢的語助詞具有紅學考證上的實質意義,並且十分優雅,因此我們決定跳過停用詞的過濾程序。
  • 斷詞與詞頻分析。
  • 用詞習慣統計。

我們可以得到80 回前/後的用詞頻率及120個章節的用詞習慣圖。

從本落點分析圖可得知,前80回合跟後面40回合, 座標有相當的差距。

結語

經快刀斷詞統計分析,鎖定了常用的 278 個高頻詞語,(包含代名詞、形容詞、副詞、介系詞、連結詞),還有42 個文言文虛詞,這構成了曹雪芹寫作的文字風格特徵,在後面40回合這些特徵就不明顯。

論文抄襲手法及破解方式不斷快速演化。相似度比對系統,雖可以協助使用者執行文章內容審查,但只有積極提昇學術倫理教育,以正確的引用方式傳承前人的研究智慧,才是讓社會進步的解決之道。


延伸閱讀:

  1. 商業周刊:連文風都能比對!本土AI論文比對系統,查6萬字僅需799元
  2. Turnitin-論文檢查系統
  3. Turnitin教育訓練課程(影音檔)