你以為社交媒體帖子=大數據集?其實它可能不如新聞媒體的文本可靠

你以為社交媒體帖子=大數據集?其實它可能不如新聞媒體的文本可靠

本文來自微信公眾號:全媒派(ID:quanmeipai)


由於為全球範圍內的對話提供了廣泛的可能性,社交媒體如今成為「大數據」的代言人。平台巨大的規模、超快的更新速度和多樣的內容被視為大數據時代教科書級的範例。但是,當人們對社交媒體的數據價值格外重視,或許也該反向思考——社交媒體上的數據真的比新聞媒體這樣的傳統數據更多,更有價值嗎?


在互聯網數據領域深耕超過20年的互聯網企業家及學者Kalev Leetaru以Twitter為例撰文指出,社交媒體的數據價值可能被人們高估了,而新聞媒體則被低估。本期我們跟隨KalevLeetaru的視角,以嚴格的數據計算為支撐,破解大數據時代的數據價值迷思。


Kalev Leetaru:喬治華盛頓大學(George WashingtonUniversity)網絡與國土安全中心高級研究員,曾任谷歌雲平台開發專家


社交媒體「大」數據,沒有想象中那麼大


在今天,人們把社交平台看作大數據的縮影。但是值得注意的是,這些平台對外部的透明度不高,意味着它們的印象構建實際上都是基於這些公司自己向公眾披露的數據和創造的美好概念,比如「活躍用戶」。這些數字一直在變化,概念也在不斷演變,但唯一的目的都是反映整個社交媒體生態最美好的一面。


人們對社交平台的崇拜之情主要基於一個信念——它們的服務器擁有一個難以想象的大型全球人類行為檔案。但是,與過去作為數據來源的傳統媒體相比,社交媒體擁有的這個檔案真的大得多嗎?


就最近的事件來看,Facebook在去年開放了一個大型數據集,為學者研究提供材料,其中包括「1PB(千萬億位元組)的數據,儲存着全球Facebook用戶點擊過的幾乎所有公開鏈接、點擊發生在何時、以及點擊的用戶是什麼類型的」。但在專業人士的分析中指出,該數據集儘管是PB級別,但其在公布時預計僅包含300億行,大概是每周從3億帖子中生成200萬個數據的增長速度。


Facebook與Social Science One建立合作夥伴關係,向其開放PB級別的用戶數據,搭建業界與學界的橋樑


對於許多研究人員來說,300億行聽起來像是他們一生都分析不完的海量數據。然而,按照現代標準,300億條記錄是一個相當小的數據集,而PB級數據在大數據時代早已見怪不怪。


作為對比,Kalev Leetaru提出,自己的開放數據項目GDELT已經編製了一個數據庫,該數據庫自2018年3月以來已經從全球新聞媒體主頁中收集超過850億個外鏈。換句話說,它只用了一半的時間,卻是Facebook數據集的2.8倍。


由Kalev Leetaru創建的GDELT是有史以來最大,最全面,最清晰的關於人類社會的開放數據庫,每日監控世界各地的新聞媒體更新


社交媒體與新聞媒體相比,其數據方面的差距並不一定像人們想象得那麼大。之所以產生錯誤的想象,僅僅是因為歷來缺乏將新聞媒體視為大數據工具的習慣。而相比之下,社交媒體從一開始就積極地將自己與大數據掛鈎,並在建設上最大限度地與數據分析靠攏。


Twitter的「大」數據庫研究價值有限


既然社交媒體在數據量上並沒有人們想象得那樣無敵,那麼在數據的研究價值層面表現又如何呢?


社交媒體巨頭Twitter雖然只成立了短短13年,但數千億條推文賦予它厚度,每天成千上萬人發推賦予它速度,而文字、圖像和視頻的混合則豐富了它的維度。在全球範圍內,Twitter都絕對稱得上這場大數據革命重要的註腳。大量學者使用Twitter的數據進行研究,而KalevLeetaru指出,在Twitter的海量數據中,有研究價值的部分其實有限。


Twitter本身不定期公布推文數量的相關數據。然而,根據先前的研究推斷,可以合理地估計,自13年前該平台成立以來,推文數量已累計超過一萬億條。


乍一看,一萬億是個非常龐大的數字。但從內容的角度考慮,推文實際上很小,因為畢竟它只是一個最多包含140個字符的文本。這意味着即使推文總量大,但每條推文傳遞的信息其實很少。進一步來看,甚至很少有推文是接近140個字符的,每條英語推文平均包含34個字符,而日語推文平均僅包含15個字符。


此外,雖然Twitter的原始數據非常大,但其中只有4%是推文文本數據。由於大多數針對Twitter的分析是關注推文的文本,所以對社會分析有用的數據量其實非常小。


一萬億條140個字符的推文,也只產生140TB(太位元組)的數據。而實際情況是,在2012年,Twitter上的推文平均長度為74B(位元組),這意味着那萬億個推文的文本轉化為數據,只有74TB。而根據2012到2014年的狀況推斷,可以估計在這萬億推文中有35%是轉推,那麼有價值的數據可能要縮減到48TB。此外,這些文本中還包含着超鏈接、提到其他用戶(@XXX)等內容,這些文字是也缺乏分析價值的。


1TB約等於15個64GB的手機存儲數據量


社交媒體VS傳統媒體,誰掌握着大數據?


Twitter VS數字化書籍:十三年的文本超越兩個世紀的書籍?


2010年的Google Books NGrams中囊括了所有已出版書籍的4%,總計5000億字,估計大小約為3TB,比Twitter的數據量小24倍。Internet Archive(互聯網檔案館)的英語公共領域書籍文本總計約450GB,比Twitter小約85倍。


Google Books Ngrams Viewer:開放數據庫,可以查詢任何一個或幾個詞在過去500年內在書籍中的出現頻率變化趨勢。圖中為「life,liberty,happiness」三詞的結果


Internet Archive是一個非營利性的數字圖書館組織,提供數字數據如網站、音樂、動態圖像、和數百萬書籍的永久性免費存儲及獲取。


但是,Google和InternetArchive的數字化圖書館藏書只包含每本書的一個副本,因此將它們與轉推無數的Twitter相比是不公平的。通過過濾轉發可以發現,Twitter的數據量只是Google Books NGrams的16倍,是Internet Archive的公共領域書籍的54倍。


按照數據量來看,僅僅發展了13年的Twitter的數據量已經比今天研究人員可用的兩個世紀的數字化書籍更大。但不可忽視的兩個因素是:首先,數字化時代改變了出版的邏輯,以前出版一本書的成本太高,而在Twitter時代,個人「出版」的數量僅受限於敲鍵盤的速度;其次,數字化的書籍只是人類歷史上極小的一部分,從本質上講,這是將Twitter在13年內的文本總數與兩個世紀的書籍的4%進行比較。


Twitter VS在線新聞:差距只有8倍


考慮到社交媒體與傳統出版業的較大差別,更有代表性的比較需要找到具有類似特性的媒體。上文中提到,GDELT的新聞數據集在一半的時間內成為Facebook數據集的三倍,那麼Twitter與新聞間的數據差異又是怎樣?


從2014年11月至今,GDELT項目監控了大約3TB的新聞文章文本,該數據僅計算文章文本本身。在同一時期,可以根據Twitter的先前趨勢估算,其推文總量應該在6000億左右,假設轉發量隨時間逐漸增加,那麼估計其中3300億條不是轉推。如果按照每條140個字符計算,那麼將達到大約84TB;按照平均每條74個字符計算,就是44TB,但如果不包括轉推,這將降至僅24TB。


由GDELT檢測發現,假設2006年至今發送的數萬億條推文都是140個字符,Twitter的數據量也僅是2014年至今全球在線新聞量的47倍。使用更為現實的平均推文長度來計算,Twitter的數據量是新聞的25倍,移除轉發后則只是16倍。


值得注意的是,這是跨度13年和4年的比較。如果將兩者都放在4年的時間內比較,那麼Twitter的數據量只是新聞的15倍,移除轉發后就只有8倍了。


因此,如果有人可以訪問2014年至今完整的Twitter消息,那麼在同一時間段內,其文本總量可能只是在線新聞內容總量的8倍左右。


從這個角度來看,Twitter是一個很大的平台,但它和全球新聞相比也不是天差地別,這也提醒了人們,每天在世界各地發佈了多少新聞。


對學術研究而言,新聞比社交媒體更有價值


在現實中,只有極少數研究人員可以獲得Twitter上所有的推文,最大的學術研究通常是使用Twitter Decahose進行的,其中僅包含每日推文的大約10%。2014年至今,Decahose上的數據僅為新聞的1.5倍。如果排除轉發,新聞則會反超成為Decahose的1.2倍。


很少有大學有足夠的財力支持去訂閱Twitter Decahose,因此絕大多數基於Twitter的學術研究都是通過Twitter的搜索API(應用程式界面)進行的,該API僅提供每日推文的大約1%。在此情況下,新聞實際上是其數據量的6.7倍。如果排除轉發,新聞將成為其的12.2倍。


Twitter Developer為學者研究提供開放數據


因此,就大多數學者所使用的這1%數據而言,Twitter在過去四年中實際上比同一時期的全球在線新聞輸出的數據小几倍。而那些有幸與Decahose合作的學者獲取的數據實際上也少於他們能從新聞中得到的內容。更極端地假設,一個人可以獲取Twitter上所有的信息,數據量也只是新聞的8倍。過濾掉所有超鏈接和提到別的用戶(@XXX)的內容,該數字將進一步縮小。


簡而言之,Twitter是一個龐大的數據集,這一點毋庸置疑。但就大多數分析所關注的實際文本內容而言,由於單條推文的字符有限,一萬億條推文實際上並沒有人們想象的那樣有價值。



在許多方面,與傳統的內容平台相比,Twitter更偏向於行為數據。最重要的是,即使在平台信息完全可接觸的前提下,Twitter實際上也並不比新聞媒體這樣的傳統數據集大得多。就大多數研究人員使用的Decahose和API而言,新聞媒體實際上提供了更大量的可分析內容,並且信息出處更明確,穩定性更高,歷史背景更清晰。


大數據時代,社交媒體巨頭在數據領域佔優勢已經成為共識,甚至塑造了對大數據工作的定義。然而,一萬億條推文可以迅速轉化成幾十TB的數據,這樣快速而巨大的信息流通量中,有研究價值的部分其實很少。


而相比社交媒體,傳統媒體卻是巨大的未開發數據源。Twitter肯定符合大數據的所有定義,但通過仔細觀察,結論是傳統新聞業並不落後。唯一的不同只是,社交媒體積極突顯自己與大數據的關係,而新聞業卻未能在數字時代重塑自己。


通過社交媒體與書籍、新聞的對比,最重要的啟示是,當我們不遺餘力地將社交媒體神話化為大數據的集大成者,實際上更重要的是創造性思考如何利用圍繞着我們的未開發數據,並將其帶入大數據時代。


本文來自微信公眾號:全媒派(ID:quanmeipai)

*文章為作者獨立觀點,不代表虎嗅網立場
本文由 全媒派© 授權 虎嗅網 發表,並經虎嗅網編輯。轉載此文請於文首標明作者姓名,保持文章完整性(包括虎嗅注及其餘作者身份信息),並請附上出處(虎嗅網)及本頁鏈接。原文鏈接:https://www.huxiu.com/article/286611.html
未按照規範轉載者,虎嗅保留追究相應責任的權利
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!

想在手機閱讀更多社交網絡資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems