小公司的大數據之路:打破孤島,打擊造假

..

李鵬

李鵬

2013年,Netflix 推出的根據 BBC 同名劇集改編的《紙牌屋》(House of Cards)成為大數據指導內容製作的口碑之作,Netflix 鼓吹的大數據方法論迅速被內容產業的從業者們奉之為圭臬。

同一年,酷雲成立了。

一開始,這家公司野心勃勃地試圖在 PC 互聯網和移動互聯網之外佔領「家庭互聯網」。而在此之前,同樣雄心勃勃的陳天橋的盛大盒子最終都不得不折戟沉沙。在軟硬件條件都不成熟的情況下,在各方面勢力相互角逐豈容他人酣睡的激烈競爭的戰場上,一個小小的創業公司哪還有什麼機會,它不得不面臨或者另謀出路或者就此一條血路走到底的選擇。

最終,這家公司決定另闢蹊徑。他們不在媒體數據這一領域上左右逢源,轉而去連接數據和人。

《紐約客》的這幅漫畫成為早期互聯網最逼真的寫照

在互聯網剛出現的時候,關於這個新生事物最有名的段子莫過於「網上沒人知道你是條狗」的諷刺,但是,隨着互聯網的不斷深入發展以及數據量的不斷積累,人們逐漸意識到,這一問題不止是憂思和善意的諷刺,而是切實地影響着互聯網商業的運行。

移動智能設備及移動互聯網的出現更是加劇了這一狀況,越來越多的智能屏幕應運而生,越來越碎片化、個性化的應用場景層出不窮。

那麼,問題來了,如果我們連不同屏幕背後的用戶的身份都無法確定的話,如果我們連不同屏幕上的操作和習慣是否出於同一個用戶都不能確定的話,那麼,基於數據的互聯網廣告、推送、交易乃至徵信基本上都只能停留在紙上談兵的階段,擁有再多數據又有什麼用呢?

大數據只是死數據,能夠結構化的才是真正的大數據。

因此,只有打破硬件、應用場景的藩籬,只有將數據和用戶連接起來,才能真正發揮大數據的作用與威力。換言之,大數據的意義與價值不是單純地積累數據規模,而是打破數據分散割裂的孤島狀態,將其邏輯化序列化。

酷雲做的就是,把屏幕上的行為和屏幕後的那個用戶聯繫起來,建立起一個抽象的用戶畫像。

他們首先有着自己的 ACR(自動內容識別,Automatic Content Recognition)技術,通過和硬件廠商的合作,他們將傳感器元件置入電視中,通過聲音圖像來識別場景中的主要信息,包括Google、微軟及Arcsoft、Digimarc、Nuance 等公司在這一領域都樹立了自己的優勢。

更為重要的是,這家公司手上掌握的超大規模的數據量。截至2018年1月,酷雲宣稱他們已經覆蓋80%的智能電視終端品牌,擁有3億以上的活躍用戶 KID,為包括七大衛視在內的400餘家電視台、國內排名前10的影視內容製作公司等提供電視媒體大數據服務。

數據顯示,我國智能電視存量在2017年大約為1.5億台,再來看看2015年全國1%人口抽樣調查的數據,其中指出「平均每個家庭戶的人口為3.10人」,只需要做一道簡單的計算題就會發現這樣一個驚人的事實,酷雲擁有着大約2/3的智能電視用戶的數據。

如果說在前互聯網時代,「時間就是金錢」還是一條顛撲不滅的真理的話,那麼,在這個大數據已然成為無往不利法寶的時代,我們有理由提出一條新的公理,數據就是一切。

任何一個在垂直領域擁有如此規模和比重用戶數據的公司都足以活得風生水起。

酷雲自然也不例外,這家公司現在的商業模式主要集中在兩方面,一是把數據做 SaaS 平台,將其銷售給影視公司、節目公司和平台,另外一方面,由於手中掌握的海量的屏幕和用戶,酷雲能夠針對不同用戶進行精準的廣告推送。

死數據與大數據更重要的一點區別還在於,前者永遠存在造假的可能性。

CNNIC 的數據顯示,截至2017年12月,中國網民規模達到7.72億,而號稱2017年流量最多的某電視劇至完結當日累計播放量超過416億,平均下來這部劇集每集在網絡上的播放量大約超過6億,這相當於每10個中國網民中就有將近8人看過此劇。

技術手段的限制和行業潛規則讓這樣的造假風氣蔓延盛行,最終形成惡性的食物鏈,每部劇集都會或多或少地通過這樣的手段來造勢,廣告主的預算和投放自然會傾向於那些數據華麗的平台。

短期來看,關注和流量的確能帶來良好的回報,但是,更長遠地看的話,廣告主的投入產出最終一定無法和支出相侔,到時候,這個數據泡沫就必然破滅,而整個內容產業自然也會因此遭遇雪崩式的危機。

酷雲正在做的事情就是把這樣的泡沫一點點擠破,當大數據就能客觀反映趨勢和真相的話,那麼數據造假在市場上存在的意義就會一點一點被忽視否認。

而這正是大數據對互聯網時代巨大推動的最鮮活有力的例證之一。

以下是鈦媒體同酷雲互動董事長兼 CEO 的對話,經過編輯:

(Q = 媒體,A = 李鵬 酷雲互動董事長兼 CEO)

Q:酷雲在技術上的優勢有哪些?

A:有兩個。

第一是多重傳感技術。

最簡單的理解是,我們 iPhone X 的頭簾,上面有接近十種的傳感在裡面。我們也在做多重傳感,目的很簡單,有一些場景,特別是戶外的時候,怎麼把人的 ID 和戶外很多屏幕的信息關聯起來。

靠傳統的一個傳感器的技術是無法完全實現的。所以我們做了多重傳感技術。其實它是用多種不同的傳感器組合起來,每一個傳感器干一件事情,每一件傳感器都有數據回傳,但組合起來,相當於把數據做了優化和匯總,這樣對整個識別效率會大大提升。

第二個技術的方向是區塊鏈。

區塊鏈好像是瞬間火起來了,但我們研究這個已經研究了很長時間了。我們來解決什麼問題呢?就是數據可信的問題。

因為區塊鏈的核心是去中心化。要把兩個世界的數據打通,比如一部分數據是人看了這些媒體,一部分數據是人進了電影院。同樣一個人幹了兩件事情,兩個一對接,就知道了這個人看好哪些媒體,還有他為什麼到了電影院,這是非常簡單的需求。

傳統的技術很難實現這兩個數據的安全對接,所謂安全對接就是這個數據能夠做用戶隱私保護,這邊的數據得不到,反過來也是同樣的道理。在這種場景下,就提出來一個數據安全加密的需求,區塊鏈就體現出它的用武之地和優勢了。

Q:現在互聯網電視流量數據造假的手段主要有哪些?

A:如果講泛娛樂中國市場的問題,我們現在關注三個場景。

第一個場景是電視,是我們主戰場。第二個場景比如是電影。第三個場景OTV就是互聯網視頻網站。

我們看這三個領域泛娛樂數據目前的真實情況,我們跟電影院也採集數據。目前電影市場最新數據已經剛剛官方公布了,大概570億。可是大家知道嗎?很多人都說過了,這裡面30%是假的。

中國的電視領域,目前在電視台播出的影視劇,90%是通過數據造假、通過購買搜索來獲得的。OTV 市場比這兩個市場加起來還假。原因很簡單,互聯網有它的原罪,今天整個互聯網陣營都是在像狂野一樣的發展,不僅是視頻網站,其他領域都是這樣。

怎麼實現的呢?無外乎兩種手段。

一種手段是外部,一種手段是內部。更容易被技術發現的是外部的,隨便找淘寶加幾個旺旺跟他們聊聊天,基本上會把外部的市場摸個七七八八了。第一個做法相對比較粗糙,手段相對來說比較單一一點,通過一些核心技術手段,這些東西可以在99%的範圍內被幹掉。

我核心講一下內部,這是整個視頻領域中目前不太好的一種做法,做法很簡單,比如你有小孩,你的小孩特別喜歡看《蠟筆小新》,他坐在手機前或者電腦前看,看的時候你陪着他。但這種片子經濟價值、流量價值是偏低的。因為我如果賣 CPM 的話,可能半買半送都可以,從某種程度上說是低價流量。但這個流量是真實存在的,怎麼辦?

那就把這個活生生的真實的流量改變,假設最近有一個片子流行,從兩塊錢賣到了接近一百塊錢,那就是幾十倍的攀升。如果有人能夠把《蠟筆小新》的流量變成這個片子的流量,就獲得了巨大的利益。

Q:廣告主成了最大的「受害者」?

A:說到重點了,就是因為在過去數據是「孤島」,企業的銷售和交易數據和其他的數據完全是兩個不可打通的世界,而這個世界是靠媒體的數據來評估內容的,比如收視是媒體數據,收視率高就是內容好。很多企業不知道,有些企業知道,但能怎麼辦?還有一些企業可能中層也有一些腐敗的行為。

我們過去把這叫做「假繁榮」,這就是假繁榮背後核心的商業邏輯。

那麼為什麼這個繁榮景象出現了問題?兩個原因:

第一個原因是純市場化原因。就是大家都在買,那些資源方發現后那就選擇漲價;而現在已經漲到天價了,很多影視公司買不起了。然後大家開始反抗,不是反抗作假,而是價格太高買不起了。

第二個原因,我們出現了。有個影視圈大佬跟我說,以前我們看哪個電視劇收視率出來,就說哥們兒牛逼,因為你也不知道它真實的是怎麼樣。現在看完了之後,這麼高,打開酷雲,如果也是很牛逼,他就會說哥們兒真牛逼。或者打開酷雲以後,看到數據跌到十名以後,那就說「傻逼」。

所以我們說的跨屏,其實核心乾的事情就是把兩個原本在不同世界的數據融合在一起,靠的是一個共有的人。你還關心互聯網刷屏刷500億還是1000億嗎?不,因為是假的。當我知道了不同媒體對我品牌提升和帶來的 ROI 轉化分別是多少的時候,能用數據客觀評價出來的時候,誰還會關心收視率多少。

所以我們得出一個結論,有兩個趨勢未來不可逆。

第一叫做媒體的數字化不可逆,我們是把整個中國承載的一千億廣告的電視媒體給數字化了,我們在干這件事情。未來不要再分什麼傳統媒體,不要再分什麼新媒體、互聯網媒體,因為所有媒體都是數字化媒體。第二個趨勢叫做企業數字化不可逆。

Q:這項技術還有哪些其他應用場景?

A:過去一年,阿里吹了一年的口號,很多超市開始意識到數據的重要性。我們現在也在跟一些超市在合作,我們認為有兩個品牌一直在行業內非常知名,一個是寶潔,一個是聯合利華,他們是快消品前兩大知名企業,他們也想到非常好的方法來支撐數字化轉型,但不知道怎麼做。因為他們沒有自己的超市,用戶在超市裡面買了海飛絲洗髮水或者飄柔洗髮水,都是人家的平台,他們對這件事很頭疼。

隨着新零售的發展,已經有了很多新的技術解決方案,在超市裡面把人和他的購買產品的清單實時數據建立起來,不僅有無人貨架和無人便利店,還有智能購物車、固定掃碼台,很多數據都具備了多重傳感以及對人的ID的識別等等的能力。

這意味着什麼呢?再過一段時間,我就可以找聯合利華和在超市銷售產品的廠商。你的數據我有,可以給你們,看怎麼更好的合作,怎麼去更好地利用這些數據。(本文首發鈦媒體,作者/胡勇)

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App


想在手機閱讀更多IT人物資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems