一秒鑒別ICO詐騙丨2251個項目,研究人員提出深度學習ICO信用評級系統

.. 雷鋒網·AI金融評論按:目前,大多數ICO不受政府法規的約束,交易平台或機構缺乏一套嚴密的評估體系,這也直接導致了ICO詐騙事件的層出不窮(註:典型案件可參考《史上最大ICO代投詐騙:帶頭人「李詩琴」疑跑路,涉案金額超6000萬元》了解)。日前,香儂科技創始人、斯坦福大學博士李紀為聯合美國加州大學聖塔芭芭拉分校、斯坦福大學共同提出了一種基於深度學習的加密貨幣ICO詐騙鑒別系統——IcoRating,以試圖改善這一局面。

據悉,IcoRating系統由李紀為和其團隊基於NLP技術分析了市面上共2251種數字貨幣而得出。他們調查了這些數字貨幣的各個方面,包括生命周期、價格變化和白皮書內容、創始團隊、Github資料庫和官網等ICO信息,從而預測並實現了識別詐騙ICO項目的0.83的精確度。

對此,該團隊在論文中表示:

我們希望這項工作能夠幫助投資者識別ICO詐騙項目,並自動評估和分析ICO項目。

2017年,902個基於眾籌的數字貨幣中,45.6%已經失敗

加密貨幣正獲得前所未有的關注和理解。與中心化的電子貨幣和中央銀行系統不同,大多數數字法幣不受中央和地方機構的監管。對這些去中心化的系統的控制,可通過一個開放、持續增長的分佈式賬本——區塊鏈來實現。

如圖1所示,在過去三年中,數字貨幣的市場資本化程度得到了巨幅的提升。根據Cryptocurrency Market Capitalizations 提供的數據,加密貨幣的單日最高交易量已接近2017年紐約證券交易所交易量的日平均值。

圖:2013年7月至2018年1月的數字貨幣市場資本化情況

由於其去中心化的本質,數字貨幣的眾籌融資並不需要具備風險投資的所有必要條件,而是通過ICO來完成。ICO,也稱為首次代幣發售,是用區塊鏈將使用權和加密貨幣合二為一,來為開發、維護、交換相關產品或者服務的項目進行融資的方式(註:參考「ICO」的維基百科)。

在ICO中,投資者用法定貨幣(例如美元、人民幣)或其他加密貨幣(例如BTC、ETH)來獲得眾籌的加密貨幣。當ICO完成後,這些用於眾籌的加密貨幣將具備貨幣的功能單位。新型幣種在發行前,一般會先準備一個白皮書,以詳細介紹這個幣種的商業性、技術性和金融性特徵。

從圖2可以看出,ICO項目的數量從2013年7月到2017年1月一直呈現穩步增長的態勢,並在2017年突飛猛進。

圖:2013年7月至2018年1月的ICO項目增長情況

儘管ICO能提供公平合法的投資機會,但眾籌的便利也為一些不擇手段的企業通過ICO謀利創造了機會和激勵機制。群涌而起的ICO,其中不乏一些項目發起人以通過眾籌抬高加密貨幣的價值,從而快速出售貨幣以獲利。除此之外,加密貨幣的去中心化本質也給政府監管帶來了重大挑戰。

根據Engadget數據顯示,2017年,902個基於眾籌的數字貨幣中,45.6%已經失敗。從圖3和圖4來看,還有一個更為嚴重的問題。

圖3和圖4中,x軸上的間隔代表(ICO)價格的變化範圍,而y軸上的對應值則表示ICO項目貢獻的百分比。可以看出:

  • 4.56% 現有 ICO 項目在發行半年後都遭受了價格下跌,其程度甚至超過 99.9%,而在發行一年後,這個比例上升到6.89%;

  • 約有29%的項目在發行半年後,價格下跌了80%以上,一年後,這個比例增長到驚人的39.6%。

雖然這樣說可能不負責任——即每一個在發行后價格急劇下跌的ICO項目都是騙局,但在ICO前建立一個可靠的ICO信用評級系統來評估數字貨幣是必要而迫切的。

在這種情況下,李紀為研究團隊提出了IcoRating這種基於機器學習的ICO評分系統。通過分析2251個ICO項目,該團隊將數字貨幣的生命周期和價格變化以及各種級別的ICO信息(包括其白皮書、創始團隊、Github資料庫、網站等)相關聯。在最佳設置的情況下,該項目能夠以0.83的精確度和0.80的F1分數來識別ICO詐騙項目。

與人類設計的評分系統相比,IcoRating系統具有兩個關鍵優勢:

  • 客觀性:機器學習模型涉及的先驗知識更少,可從數據中學習因果關係,這與需要大量人類專家的人類評級系統相反,而人類專家不可避免會引入偏見。

  • 不會被人為隨意篡改:信用評級的結果是通過黑盒培訓從機器學習模型中輸出的。這個過程不用那麼多的人員參與和干預。

加密貨幣、區塊鏈和ICO

在李紀為這篇論文的第二個章節中,主要介紹了加密貨幣、區塊鏈和ICO的相關信息。如果密切關注幣圈和鏈圈的人士可能對這三個概念已諳熟於心。

1、加密貨幣

加密貨幣是「一種數字資產」,被視作交易媒介,通過加密技術以確保交易。大多數加密貨幣是去中心化的。第一個真正意義上的去中心化加密貨幣是比特幣(也稱BTC),由一個或一群不明身份的人在2009年以Satoshi Nakamoto(中本聰)之名創建。自BTC出現以後,各種加密貨幣蜂擁而至,其中最知名的包括Ethereum(簡稱ETH)、Ripple(簡稱RIP)、EOS和NEO。

2、區塊鏈

加密貨幣的交易由區塊鏈提供驗證。人們可以將區塊鏈視為分佈式賬本。它可以不斷增長並永久紀錄雙方之間的所有交易。每條紀錄都稱為一個區塊,包含鏈接到前一個區塊、時間戳和交易數據的加密哈希指數。該賬本以分佈形式被所有參與者擁有,且記錄只能在改變所有後續網絡區塊的情況下得到更改。當交易發生時,會廣播給網絡中的所有節點。區塊鏈使用多種時間戳方案,如PoW(工作證明)或PoS(股權證明)。

區塊鏈的概念消除了數據集中存儲而帶來的風險:沒有集中的故障點,數據對每個參與者都是透明的。

3、ICO

如前所述,ICO是以加密貨幣為中心的眾籌融資手段,其可為早期項目提供眾籌機會,逃避風險投資家、銀行和證券交易所規則的限制。它們還提供了超越風險投資或私募股權投資的投資機會,二者是早期投資機會的主導。

另一方面,由於缺乏監管,ICO給投資者帶來了重大風險。不同國家對 ICO 和加密貨幣有不同的規定。例如,中國政府禁止所有 ICO,而美國證監會(SEC)則表示它有權對 ICO 施行聯邦證券法,而委內瑞拉政府則推出了自己的加密貨幣petromoneda(簡稱石油幣)。

IcoRating系統驗證過程、方法

1、白皮書分析:內容差異巨大

在IcoRating系統的驗證過程中,該研究團隊從各種平台包括CryptoCompare、CoinMarketCap和CoinCheckup一共收集了2251個ICO項目信息。並在這些項目中獲得了1317份白皮書。

表1:ICO白皮書的各項統計數據

如表1所示,其顯示了ICO白皮書的各項統計數據,包括平均值、標準差,最大和最小字數和句子數。研究團隊從中得出一個顯著特徵,白皮書的長度差異明顯。最多的一份白皮書中包含6228個句子,最少38個。具體地說,隨機抽樣的10份白皮書中的句子數量分別為886、143、38、967、3379、6228、496、2057、3075和298。雖然白皮書的篇幅不一定能反映ICO項目的質量,但從中也能看出ICO白皮書內容的巨大差異。

李紀為研究團隊在收集而來的白皮書上運行了一個隱含狄利克雷分佈(Latent Dirichlet Allocation:簡稱LDA)模型。LDA是一種生成性的統計模型,可以將文檔集中每篇文檔的主題並以概率分佈的形式給出,從而通過分析一些文檔抽取出它們的主題(分佈),便可以根據主題(分佈)進行主題聚類或文本分類。同時,它是一種典型的詞袋模型,即一篇文檔是由一組詞構成,詞與詞之間沒有先後順序的關係。

2、IcoRating:一個基於機器學習的評級模型

在描述創始團隊信息時,研究團隊的數據以下述信息為藍本:

Justin Sun,生於1990年,本科畢業於北京大學,碩士畢業於賓夕法尼亞大學,是移動社交應用陪我和TRON的創始人兼CEO,Ripple大中華區的前首席代表。獲2011年亞洲周刊封面人物;2014年達沃斯全球傑出青年;2015年CNTV年度新人物;2017年福布斯亞洲Under30企業家...

研究人員的目標是自動從創始團隊成員中提取最重要的特徵,並將其視為NLP標籤問題。為此,他們定義了5類標籤:出生年份、大學、學位、公司和所獲獎項,並將數據集分為不同種類進行培訓、開發和測試。

IcoRating對ICO項目使用的知識非常少,但卻能夠從真實世界中收集的數據集中學習到各個功能的重要性。

如前所述,IcoRating是一個基於機器學習的評級模型。它使用的是監督學習模型。在標準監督學習設置中,研究人員希望找到模型 F,可使輸入 x 映射至輸出 y:

這個公式中,輸入「x」代表「一個ICO項目」,其中包括公開可用信息的不用方面;輸出「y",該值介於0到1之間,是一個二進制變量,用於指示該ICO項目是否為詐騙項目;「F」代表預測函數。

在訓練期間,我們將ICO項目一年的價格變化作為訓練的信號,試圖通過已知的ICO信息來預測其價格變化。預測函數F由最大化預測ICO價格變化和黃金標準價格變化之間的L2差異來學習。

其中,在收集到的 2251 個項目中,研究人員收集了 1482 個項目的歷史價格,且這些 ICO 項目至少實行了一年及以上(截止到本研究進行時)。

在測試期間,F(x)可預測價格變化,如果預測價格低於其ICO價格的「m」值,則可認為該項目為詐騙。在本次研究中,研究人員根據要求將「m」設置為0.01、0.1和1。

IcoRating測試結果

測試結果通過不同的特徵組合來識別ICO詐騙項目的結果,這些組合由白皮書、Github資料庫、創始團隊、網站這四個特徵任意組合而呈。

隨着「m」值從0.01增加到0.1,再增加到1,詐騙項目的比例逐漸增加,精度逐漸提高,召回率也在逐漸降低。

最終測試結果顯示,白皮書和Github資料庫是最重要的兩類特徵。在m被設置為0.1和0.5時,其獲得的F1分數均為0.7。通過增加更多的特徵,研究人員得到了更高的精確度和更低的召回率。當將所有特徵組合考慮進去時,IcoRating模型在「m值被設置為1」時,其預測的ICO詐騙項目實現了0.83的精確度、0.77的召回率和0.80的F1分數。

雷鋒網·AI金融評論註:該篇論文來自於https://arxiv.org/pdf/1803.03670.pdf,雷鋒網·AI金融評論對其進行重點編譯。


想在手機閱讀更多科技玩兒資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems