別再抄襲論文圖片了,機器學習算法能自動檢測出來

雷鋒網 AI 科技評論按:近期來自紐約雪城大學的 Daniel Acuna 等人在 bioRxiv 上發表了一篇文章,作者在文章提出了一種機器學習算法,該算法能夠自動進行論文圖片查重,其目的旨在解決文獻查重中的一個死角——圖片查重。

目前許多期刊都會對一些圖片進行查重,但只有極少數的期刊有自動化的查重流程。例如《Nature》期刊對收到的稿件一般會進行隨機抽樣檢測,《Journal of Cell Biology》以及《The EMBO Journal》等期刊則對稿件中的大部分圖片進行手工查重。顯然手工查重費時費力,這也是為什麼到目前為止大部分期刊都沒有圖片查重這一項。

然而這並不意味着圖片查重不重要;如果能夠及時發現不當的圖片抄襲(重用),那麼可能會制止許多學術不端行為。

以 2014 年轟動學術圈的小保方晴子(Haruko Obokata)學術造假醜聞為例,當時小保方團隊同一天在《Nature》上發表了兩篇文章,文章稱他們從新生小鼠身上分離的細胞通過 STAP 方法能夠獲得胚胎幹細胞。

據後來人們的調查發現,在文章中竟赫然有兩張圖片使用了她在博士學位論文中的圖片,而這些圖片當時是用於表示細胞原本就處於胚胎狀態的,而非 STAP 之後變為胚胎狀態。在這個事件中,如果《Nature》期刊能夠在發表之前檢測出文章中的圖片重用,那麼這個讓整個學術圈震驚的造假醜聞也許就能扼殺於搖籃之中了。

然而事實是,沒有。

再說一下美國研究誠信辦公室(US Office of Research Integrity, ORI)。ORI 有多種工具來協助工作人員進行圖片查重,但每年他們也只報告了大約 10 例的學術不端行為;為了這少數的幾例報告,不知道他們要查閱多少案例/文件以及對比多少圖片。不過需要說明的是,ORI 並不會去主動審查學術不端(成本有點高),除非有匿名檢舉。

顯然,他們期待自動圖片查重程序的出現。

Daniel Acuna 等人發表在 bioRxiv 上的這篇預印文章或許為此提供了一線希望。

總的來說,作者首先分析了 PubMed Open Access Subset(PMOS)數據集(2015)中包含的 200 多萬張圖片,通過他們開發的自動查重管道能夠自動檢測出由相同的第一(最末)作者發佈的多組論文的圖片重用。之所以做出「相同的第一(最末)作者」的限定,是為了降低模型的時間複雜度。由於缺乏相應的測試數據集,作者就制定一個標準,然後讓一群人類審閱者手工來檢查這些檢測到的圖片是否真的有重用,以此來評價自動查重管道的有效性。

下面我們來看這篇論文的詳細內容。

數  據

作者分析了 PMOS(2015)上來自 4324 個期刊的 760036 篇論文,其中有 2,628,959 張圖片。當然並不是所有的圖片都會被用到,例如有些是和公式相關;將這些圖片從中清除掉。平均來說大約每篇論文包含 4.78 張圖片。

方  法

文章中使用的方法包括:複製-移動檢測算法(Copy-move detection algorithm)、生物醫學補丁檢測(Biomedical patches detector)、人工評估算法的有效性。

複製-移動檢測算法

作者在這裡使用了和 V. Christlein et al.(2012) 相同的算法:基於關鍵點的檢測方法。這有以下幾個流程:

  • (Fig A)使用低閾值 SIFT 關鍵點檢測算法計算關鍵點。

  • (Fig B)找到歐氏空間中圖片上的所有關鍵點中兩兩鄰近的點,這些關鍵點對的間距要小於等於第二近鄰距離的 60%。將其他沒有匹配或匹配程度小於 40 個像素的關鍵點移除。

  • (Fig C)對關鍵點進行平面聚類,移除聚類面積小於 40x40 平方像素的集群。如果再一個集群中,有超過三個關鍵點與同一個集群相匹配,那麼就將這兩個集群定義為匹配集群。

  • (Fig D)使用 RanSac 算法找到匹配的簇之間的仿射變換。

如我們前面所說,考慮到在數百萬張圖片上進行最近鄰搜索的時間複雜度,作者在這裡只分析了第一(最末)作者的數據。雷鋒網認為,如果想要將這種算法應用到實際應用中,可能還需要考慮如何降低該算法的時間複雜度。

生物醫學補丁檢測

在科學文章中,許多圖片都有着極為相似的區域,例如許多圖片會使用相似的文本和形狀來描述圖形的某些區域(軸標籤、箭頭等),因此前面的算法發現的許多匹配可能就是這些內容。於是作者開發了另外一個額外的步驟。

作者首先從上一步「複製-移動檢測」結果中抽取 20k 的樣本,讓隨機森林來預測一個匹配是生物醫學匹配的概率,然後根據預測的熵對這些匹配進行排序,選擇出熵值較高的匹配,然後讓一些論文作者來標記(哪些是生物醫學匹配)。人工標記后,將這些數據添加到訓練數據集中,然後重複這個過程。通過這種方式來清除掉非生物醫學的匹配。

這種方法明顯有一個很大的不足之處,即需要專業知識才能進行人工標註。這大大限制了本文方法的廣泛應用。這個作者在文章中也有提到。

人工評估算法的有效性

論文圖片查重研究的一個很大問題是,沒有測試集。於是 Daniel Acuna 他們三人就擔任了這個人類評估器。他們製作了一個基於網絡的工具,這個工具包含了上述匹配結果中的 10000 個可能有問題的案例,並且提供了與 PUBMED 的鏈接,能夠看到相應圖片的標題、說明以及文章本身。三個人獨立審查了所有這些案例,並按照 No problem、suspicious、potential fraud、fraud 來給這些匹配結果進行評估。

結  果

經過以上三個步驟以及相關細節的約束,作者得出如下圖所示的結果。

其中左側 A 圖為生物醫學圖被重用的比例。可以看出,在所有這些論文中有大約 1.5%(0.6%+0.9%)的論文是需要考察其論文是否存在欺騙,其中有 0.6% 的論文存在明顯的圖片重用。

另一方面,從右側的 B 圖,我們可以看出一個有意思的現象:跨論文的圖片重用匹配更有可能屬於學術不端行為(43.1%)。

討  論

這篇論文的意義一方面指出了 PubMed 開放獲取的論文中,有相當多的論文(0.59%)被三位科學家一致認為存在欺詐行為,另一方面它提出了一種大規模分析文獻圖片重用(抄襲、欺詐)的方法,為各類期刊及研究誠信機構提供了可行的、節省成本的方法。

當然(我們也在上文中部分指出了)這項工作還存在着許多有待改進的地方:

  1. 在標記非生物醫學補丁時,需要有專業背景知識的專家的參與,這大大限制了這種方法擴展到其他領域。如何改進算法或框架,從而不再需要專家知識,是接下來研究的重點之一。

  2. Daniel Acuna 等人的這項工作為了降低時間複雜度,一方面只選擇了少量的生物醫學的出版物(4324 個期刊的 760036 篇論文),另一方面只考慮了第一(末位)作者自身論文中的圖片重用現象。能否將這種方法應用到億級規模的出版文獻庫中,還有待觀察。不管怎麼來說,降低模型的複雜度,是將這種方法推廣到工業級的必由之路。

  3. 還有一點,也是這種方法的一個痛點,即沒有測試集。如何構建訓練-測試集,可能是促進相關研究的一項重要工作。雷鋒網認為,從利益相關的角度來說,可能期刊和研究誠信機構更應該在這些方面做出努力和嘗試。

但是不管怎麼說,這篇文章所構建的這種方法可能將是實現針對學術文獻中圖片查重漫長而艱辛的征程中的第一步。

科研人員為什麼會在學術文獻中造假不得而知,但是無論動機如何,隨着機器學習以及人工智能的發展,可能做這種行為之前就需要慎重考慮了。

《Nature》新聞介紹,Daniel Acuna 他們還沒有公開他們的算法,但已經和芝加哥西北大學研究誠信辦公室主任、美國研究誠信官員聯合會副主席 Lauran Qualkenbush 進行了討論。後者表示:「這對研究誠信辦公室非常有用,我非常希望今年我的辦公室可以成為 Daniel 這項工具的試點單位。」


想在手機閱讀更多其他資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems